全部版块 我的主页
论坛 计量经济学与统计论坛 五区 计量经济学与统计软件 Stata专版
824 0
2022-09-29
复制链接到浏览器可看【文本分析|中文分词、英文分词和关键词提取】 https://www.bilibili.com/video/BV1H34y1Y7V2?share_source=copy_web&vd_source=54787bdb921bee49fe9f51723dc971cc

jieba中文分词库,《Hamlet》文本词频统计,《三国演义》人物出场次数,TFIDF关键词抽取



- 精确模式,试图将句子最精确地切开,不存在冗余单词,适合文本分析;
>`jieba.lcut(str,cut_all,HMM)`精确模式,默认,返回分词结果**list**  
>`jieba.cut(str,cut_all,HMM)`精确模式,返回分词结果**generator**,for循环获得分词后的每个词  
>>- str:要进行分词的字符串对象;  
>>- cut_all:True表示采用全模式分词,False表示采用精确模式分词,默认值为False;  
>>- HMM:True表示采用HMM模型,False则不采用,默认值为True。  


- 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义,有冗余;

`jieba.lcut(str,cut_allTrue)`,全模式  
`jieba.cut(str,cut_all=True)`

- 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词,存在冗余

`jieba.lcut_for_search(str)`搜索引擎模式
`jieba.cut_for_search(str)`

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群