请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
hbwzhsh 发表于 2014-3-28 09:42 通过安装自定义词典就行了 installDict(dictpath='E:\\HAO\\大数据分析\\词库\\搜狗词库\\计算机词汇大全 ...
15619329355 发表于 2015-5-12 18:44 一定要注意,路径的地方是单引号,其余的都是双引号,如果错了,词典就装不上的
松子茶hc 发表于 2015-10-29 10:23 我也遇到了和楼上同样的问题,自己装在的txt词典没有对分词起到作用,而且是已经安装成功了,请问是什么原因 ...
jiangbeilu 发表于 2015-10-29 21:50 我知道是什么原因了,是因为在windows下,你用txt文件,默认的是ansi格式的数据。 你只需要把编码变成 .
jiangbeilu 发表于 2015-10-30 15:56 转换文字编码,去notepad里查看,然后很容易就转换过来了。就是这样子,至于 你的其它问题,不是我看你的代 ...
松子茶hc 发表于 2015-11-3 16:17 果然是编码的问题,已经按照你的方法解决啦~~谢谢!另外请问一下,在分词的时候安装了停用词库,想将停用 ...
jiangbeilu 发表于 2015-11-3 16:46 不明白你说的停用词是怎么个概念,这方面我用得比较少
松子茶hc 发表于 2015-11-3 17:06 停用词就是一些没有用但是文本中出现还比较多的词,比如“有的,啊,一些”等等,这样的停用词我想删除, ...
jiangbeilu 发表于 2015-11-3 17:11 这些是虚词,你可以在分词之后再剔除吧。还有你可以对文本进行预处理,把这些词删除替换成空字符就行啊。
朽木七根 发表于 2014-3-28 00:44 我有这样一列的数据,R语言中Rwordseg包分不出来,我如何自定词库(淘宝,....)对这列文本进行规范,哪位大 ...
jiangbeilu 发表于 2015-10-29 21:50 我知道是什么原因了,是因为在windows下,你用txt文件,默认的是ansi格式的数据。 你只需要把编码变成 ...
yk数据挖掘 发表于 2015-11-17 17:21 你好,请问一下,用R做分词的时候,自定义词典加载成功了,但是分词的时候,自定义词典只有一部分生效,是 ...
jiangbeilu 发表于 2015-11-17 17:33 可能是这样的情况:比如你定义了“2012”,但“2012年”是系统里的词,这样你还是会分出2012,2012年这两种 ...
yk数据挖掘 发表于 2015-11-18 09:59 而且自定义词典里,有一部分的航班类型的生效了,有一部分没生效,所以我感觉没生效的那一部分是跟Rwords ...
yk数据挖掘 发表于 2015-11-18 09:51 恩,按你的这种说法,他能分出来”2012“和”2012年“这两种是吗,可是我的是,比如我添加了sc到航班的词 ...
jiangbeilu 发表于 2015-11-18 11:12 这个应该是本身有的,你需要移除词库里的词,然后添加自己的。 另外分词还有最大和最小分法,对sc1234 ...
松子茶hc 发表于 2015-11-18 11:28 我看有说要先删除名字的词典,不知道有没有关系,我的分的也不是很准确,我加载的停用词库都没有被删除
yk数据挖掘 发表于 2015-11-18 14:49 删除名字的词典?是它对这个分词结果照成了影响是吗?另外你加载停用词库是加载哪里呢?跟自定义词库一样吗 ...