文本分析|中文分词、英文分词和关键词提取

824

收藏 2022-09-29

复制链接到浏览器可看【文本分析|中文分词、英文分词和关键词提取】 https://www.bilibili.com/video/BV1H34y1Y7V2?share_source=copy_web&vd_source=54787bdb921bee49fe9f51723dc971cc

jieba中文分词库，《Hamlet》文本词频统计，《三国演义》人物出场次数，TFIDF关键词抽取

- 精确模式，试图将句子最精确地切开，不存在冗余单词，适合文本分析；
>`jieba.lcut(str,cut_all,HMM)`精确模式，默认，返回分词结果**list**
>`jieba.cut(str,cut_all,HMM)`精确模式，返回分词结果**generator**,for循环获得分词后的每个词
>>- str:要进行分词的字符串对象；
>>- cut_all:True表示采用全模式分词，False表示采用精确模式分词，默认值为False；
>>- HMM:True表示采用HMM模型，False则不采用，默认值为True。

- 全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义，有冗余；

`jieba.lcut(str,cut_allTrue)`，全模式
`jieba.cut(str,cut_all=True)`

- 搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词，存在冗余

`jieba.lcut_for_search(str)`搜索引擎模式
`jieba.cut_for_search(str)`

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群