三国演义词频统计

1480

收藏 2024-07-30

三国演义词频统计
总字数602414

总词数399542

top 10:

	words	count	size
0	曹操	953	0.55%
1	孔明	836	0.48%
2	将军	772	0.44%
3	却说	656	0.38%
4	玄德	585	0.34%
5	关公	510	0.29%
6	丞相	491	0.28%
7	二人	469	0.27%
8	不可	440	0.25%
9	荆州	425	0.24%
10	孔明曰	390	0.22%
11	玄德曰	390	0.22%
12	不能	384	0.22%
13	如此	378	0.22%
14	张飞	358	0.21%
15	商议	344	0.20%
16	如何	338	0.19%
17	主公	331	0.19%
18	军士	317	0.18%
19	吕布	300	0.17%
20	左右	294	0.17%
21	军马	293	0.17%
22	赵云	278	0.16%
23	刘备	277	0.16%
24	引兵	276	0.16%
25	次日	271	0.16%
26	大喜	268	0.15%
27	云长	265	0.15%
28	孙权	264	0.15%
29	天下	255	0.15%
30	东吴	251	0.14%
31	于是	250	0.14%
32	今日	243	0.14%
33	不敢	239	0.14%
34	魏兵	233	0.13%
35	陛下	223	0.13%
36	一人	221	0.13%
37	都督	221	0.13%
38	司马懿	221	0.13%
39	人马	220	0.13%
40	不知	219	0.13%
41	周瑜	217	0.12%
42	汉中	211	0.12%
43	只见	207	0.12%

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

shadowaver

2024-7-30 15:55:54

top 10 ranking

附件列表

捕获.PNG

原图尺寸 65.87 KB

top 10 rank

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

shadowaver

2024-7-30 15:56:38

# 打印文件名称
for filename in filenames:
print(filename)

import jieba

file_path= r'C:\Users\apache\Desktop\上卷.txt'
file=open(file_path,'r',encoding='utf-8')
counts=file.read()
# file.readlines()[10]
words=jieba.lcut(counts)
file.close()

count_words={}
for item in words:
if len(item)==1:
      continue
if item not in count_words:
      count_words[item]=1
else:
      count_words[item]+=1

list_count=list(count_words.items())

list_count.sort(key=lambda x:x[1],reverse=True)

import pandas as pd

df=pd.DataFrame(data=count_words.items(),columns=['words','count'])
df.sort_values(by='count',ascending=False,inplace=True)

df.reset_index(inplace=True)
df.rename(columns={'index':'new'},inplace=True)
df.reset_index(inplace=True)

import matplotlib.pyplot as plt

df.plot()
df['count'].plot()

plt.rcParams['font.sans-serif'] = ['SimHei']
df['size']=df['count']/df['count'].sum()
df['count'].sum()

plt.pie(df['size'],labels=df.words)

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群