全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
1601 3
2018-03-22
有约2万个关键词,及其两两共现次数和ochiia系数(可以理解为共现强度),数据形式是四列约25万行(没有共现的就没有这一行),第一列是关键词A,第二列是关键词B,第三列是共现次数,第四列是共现强度。数据来源是4万篇论文,同一篇论文的关键词视为“共现”。现在希望将这2万个关键词分为十类左右,简单的认为一类关键词代表了一类主题的论文。使用ucinet绘图不能看到全部2万个点(关键词),并且具体哪个点属于哪一类还需要人工标注,工作量太大。希望得到的结果是两列,第一列关键词,第二列所属类别。不知道如何实现,还望各位前辈不吝赐教。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2018-3-29 15:06:09
研究了一个星期来自问自答一发吧
1、用 TXT转pajek 将数据转为.net格式,这里需要做出选择,使用共现次数或者ochiia系数,TXT转pajek只能转3列,注意不要用Excel转pajek,只能转两列。
2、隆重推出VOSviewer软件,去官网下载一个。
3、把刚刚的数据导入VOSviewer,导入方式有三种,选择包括pajek的那种。
4、点下一步的过程中会有两个问题,一是共现多少次以上要这个点,还一个是是否显示孤立点,自己按需选择。
5、然后等着画图……这个数据量比较大我的电脑画了十几分钟吧。
6、图出来后选择左侧菜单“分析”栏,有个聚类。可以选分辨率和类中最小数目,自行设定,改完后更新聚类。
7、左侧菜单项目栏里可以看到分成了几类,每类中数量。
8、左侧菜单文档→保存→Vosmap格式
9、打开保存的TXT,cluster列是聚类的编号,结束
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-3-29 15:11:36
再说点题外话吧,小白硕士转专业加入信管江湖刚刚一年有余,之前从未接触过相关工作,遇到问题只能问各位前辈,当然遇到自己能解决的问题也会乐意帮助别人。只是这个问题……不知道是我问的不清楚还是问的板块不对(提问的时候让选分区,不知道是否选错)还是怎样,竟然这么久一条回复也无,哪怕告诉我问错地方了呢?可以说是对新人不是很友好了,叹气。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2018-3-29 15:13:07
LEEbohui 发表于 2018-3-29 15:11
再说点题外话吧,小白硕士转专业加入信管江湖刚刚一年有余,之前从未接触过相关工作,遇到问题只能问各位前 ...
哇为什么我自问自答的内容需要审核发不出来,题外话就不需要?贵论坛审核机制真是发人深省令人深思
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群