经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
休闲区 十二区
›
灌水吧
R语言中文分词如何只提取自定义字典存在的词组
楼主
1794549457
931
1
收藏
2019-12-25
我先自己制定了一个分词的词典,然后对需要分词的字段按词典存在的词组进行分词提取,字典不存在的忽略不分词不提取。
例如,我的词典为:(“计算机”,“软件工程”,“中外合作”,“电气类”)
需要分词的字段为: 计算机类(计算机科学与技术、软件工程)(学费:4500元/年)
我想要的分词提取结果为:计算机、软件工程
我知道可以设置停用词过滤不要的,但是我想分词只提取我想要的。因为不要的很杂没办法全部过滤,但是我知道我要的是什么。
请问R语言可以实现吗?如何操作?急求大神赐教
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
zhanghan1993
2020-1-20 13:56:03
wk <- worker(user = "E:/R-3.6.1/library/jiebaRD/dict/dict.txt",
stop_word = "E:/R-3.6.1/library/jiebaRD/dict/stop.txt")
user 是设置的分词
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
R语言自定义初始设置问题 跪求啊 感觉就差一层窗户纸了
中文分词实践(转帖)
R语言中文分词请教
R语言中文挖掘方面中文分词后转化为文档词频矩阵后出现空格和换行的问题
R语言中文分词报错求指点
大数据语义分析:灵玖中文分词的分词处理
基于中文分词的文本自动校对算法
如何用R语言进行2-gram中文分词
R语言能不能自定义class
为什么R语言中文分词结果总是U开头的数字串?
栏目导航
灌水吧
学道会
Hadoop论坛
金融实务版
休闲灌水
经管文库(原现金交易版)
热门文章
2026年Stata初高级寒假班—AI赋能+原理+操作 ...
CDA数据分析脱产就业班于2025年12月08日开班 ...
CDA数据分析师实战核心:假设检验的逻辑、方 ...
现代数学译丛29整数分拆,(美)GeorgeE.And ...
共封装光学器件(CPO)手册——以光为介质实 ...
2026年人工智能将如何演变
青年科学基金项目(C类) 申请书填报说明 ( ...
典型群(华罗庚)
广西板材十大品牌香德里国际:以环保科技, ...
【24重磅,顶刊方法!】2010-2024上市公司供应 ...
推荐文章
26年寒假天津站|Gemini论文写作&数据分析 ...
2026JG学术冬训营:从Stata初高到Python机器 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
几种免费下载文献的方法----我的文献应助经
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群