全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 python论坛
1004 1
2020-04-21
我有几本书的中文文字,我想统计其中所有的词频,而后罗列出所有包含我指定字的词或短语结果,最后做个词云。

有没有大神能赐R或者Python 代码啊??
我愿意有偿
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2020-4-21 21:27:57
import re  
import collections  
  
'''''
从文件中读取内容,统计词频
'''  
def count_word(path):  
    result = {}  
    with open(path) as file_obj:  
        all_the_text = file_obj.read()  
        #大写转小写  
        all_the_text = all_the_text.lower()  
        #正则表达式替换特殊字符  
        all_the_text = re.sub("\"|,|\.", "", all_the_text)  
         
        for word in all_the_text.split():  
            if word not in result:  
                result[word] = 0  
            result[word] += 1   
              
        return result  
      
  
'''''
以词频倒序
'''  
def sort_by_count(d):  
    #字典排序  
    d = collections.OrderedDict(sorted(d.items(), key = lambda t: -t[1]))  
    return d  
  
if __name__ == '__main__':  
    file_name = "..\my father.txt"  
  
    dword = count_word(file_name)  
    dword = sort_by_count(dword)  
      
    for key,value in dword.items():  
        print key + ":%d" % value  
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群