全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
4076 5
2015-05-11
有一份新闻内容的文本数据需要先做聚类,
body1.txt
大小:(4.14 MB)

 马上下载

聚类后用cutree查看分类情况,想把得出的新闻的类别加入到另一份用户浏览过新闻的数据中,
data.txt
大小:(11.99 MB)

 马上下载

但是用户的新闻数据有重复项,该如何导入是用户新闻数据中能多一列显示新闻的类别?然后还要变成向量,每个用户间做余弦乘积,算余弦相似性,这又怎么写啊?还要选出与每个用户最相似的5个,提取出这五个人中共同看过且原用户没看过的最新的新闻。R新手,完全没思路啊...... 希望各位大神能写的具体些,给个大方向还是不太懂啊,时间紧任务重,望各路神仙都帮帮忙啦~~~~  小女子先在此谢过!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-5-11 11:47:42
能有R语句表达思路就好,不一定要运行出结果来,大家多帮忙啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-12 09:53:13
自己顶一下,求助啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-13 10:39:00
不太会用这个论坛,如果有人能写出来可以申请奖励,我可以给大家论坛币
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-13 21:59:20
先做词频统计吧,然后按距离聚类,最后.......
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-5-14 20:24:27
文森66 发表于 2015-5-13 21:59
先做词频统计吧,然后按距离聚类,最后.......
你说的这两步我都做过了,怎么还不说完啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群