全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1344 2
2024-07-30
三国演义词频统计
总字数602414

总词数399542

top 10:



wordscountsize

0

曹操

953

0.55%

1

孔明

836

0.48%

2

将军

772

0.44%

3

却说

656

0.38%

4

玄德

585

0.34%

5

关公

510

0.29%

6

丞相

491

0.28%

7

二人

469

0.27%

8

不可

440

0.25%

9

荆州

425

0.24%

10

孔明曰

390

0.22%

11

玄德曰

390

0.22%

12

不能

384

0.22%

13

如此

378

0.22%

14

张飞

358

0.21%

15

商议

344

0.20%

16

如何

338

0.19%

17

主公

331

0.19%

18

军士

317

0.18%

19

吕布

300

0.17%

20

左右

294

0.17%

21

军马

293

0.17%

22

赵云

278

0.16%

23

刘备

277

0.16%

24

引兵

276

0.16%

25

次日

271

0.16%

26

大喜

268

0.15%

27

云长

265

0.15%

28

孙权

264

0.15%

29

天下

255

0.15%

30

东吴

251

0.14%

31

于是

250

0.14%

32

今日

243

0.14%

33

不敢

239

0.14%

34

魏兵

233

0.13%

35

陛下

223

0.13%

36

一人

221

0.13%

37

都督

221

0.13%

38

司马懿

221

0.13%

39

人马

220

0.13%

40

不知

219

0.13%

41

周瑜

217

0.12%

42

汉中

211

0.12%

43

只见

207

0.12%





二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2024-7-30 15:55:54
top 10 ranking
附件列表
捕获.PNG

原图尺寸 65.87 KB

top 10 rank

top 10 rank

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2024-7-30 15:56:38

# 打印文件名称
for filename in filenames:
    print(filename)

import jieba
   
file_path= r'C:\Users\apache\Desktop\上卷.txt'
file=open(file_path,'r',encoding='utf-8')
counts=file.read()
# file.readlines()[10]
words=jieba.lcut(counts)
file.close()

count_words={}
for item in words:
    if len(item)==1:
        continue
    if item not in count_words:
        count_words[item]=1
    else:
        count_words[item]+=1

list_count=list(count_words.items())

list_count.sort(key=lambda x:x[1],reverse=True)

import pandas as pd

df=pd.DataFrame(data=count_words.items(),columns=['words','count'])
df.sort_values(by='count',ascending=False,inplace=True)

df.reset_index(inplace=True)
df.rename(columns={'index':'new'},inplace=True)
df.reset_index(inplace=True)

import matplotlib.pyplot as plt

df.plot()
df['count'].plot()

plt.rcParams['font.sans-serif'] = ['SimHei']
df['size']=df['count']/df['count'].sum()
df['count'].sum()

plt.pie(df['size'],labels=df.words)
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群