全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1911 2
2016-10-16
各位,我现在有一组数据,比如下表形式,有很多不同类型的属性,我想要对每一行样本进行两两之间的相似度计算?该如何实现?
name属性1属性2属性3
AASD

1

1.2

BGFFBS

2

5.2

CSDFG

3

6

DFS

4

66.3

EB

5

0.2

FYUK

6

0.5

GJHGJRTY

7

9.6

HHJYU

8

6.5

自己想法是:每一行看作一个向量或者集合,进行相似度计算,问题是如何实现向量化或者集合化?结果输出每两个实体名和相似度:比如
name1name2SIM
AB

0.3

希望大家多多指教,谢谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-10-16 15:51:50
字符串和字符串变量怎么能做相似度呢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-10-16 16:09:50
飞天玄舞6 发表于 2016-10-16 15:51
字符串和数值型变量怎么能做相似度呢
可以分别计算相似度吧,比如对第一个字符型计算相似度,采用词频相似度,接下来进行数值型相似度计算,然后把所有的相似度加一块就构成样本总的相似度,好像很麻烦的感觉,特别是属性比较多的情况
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群