混合类数据如何聚类

统计R浪人

4623

收藏 2013-11-21

如图

time	V1	V2	V3	V4	V5	V6	V7	V8	V9	V10	V11
00:37:45	21.5	22.4	61.13	61.75	-214.02	30.75	-168	0.15	OFF	OFF	OFF
00:37:46	22.4	23.5	62.88	63.63	-214.02	31.5	-167	0.15	OFF	OFF	OFF
00:37:47	23.6	24.9	64.88	65.75	-214.02	32	-167	0.15	OFF	OFF	OFF
00:37:48	25.1	26.6	67	68.13	-214.02	32.5	-168	0.15	OFF	OFF	OFF
00:37:49	27.1	29	69.63	71	-214.02	33	-167	0.15	OFF	OFF	OFF
00:37:50	30.1	32.3	73.13	74.63	-214.02	33.25	-167	0.15	OFF	OFF	OFF
00:37:51	34.3	36	77.13	77.88	-214.02	33.75	-167	0.15	OFF	OFF	OFF
00:37:52	35.8	36.5	77.75	77.63	-214.02	34	-167	0.15	OFF	OFF	OFF
00:37:53	35.4	36.1	77.38	77.25	-214.02	35	-167	0.15	OFF	OFF	OFF
00:37:54	35.3	36	77.38	77.38	-214.02	36.25	-168	0.15	OFF	OFF	OFF
00:37:55	35.3	36	77.38	77.5	-214.02	38.25	-167	0.15	OFF	OFF	OFF
00:37:56	35.3	36	77.25	77.5	-214.02	41.25	-167	0.15	OFF	OFF	OFF
00:37:57	35.3	36	77.25	77.38	-214.02	44.75	-167	0.15	OFF	OFF	OFF
00:37:58	35.3	36	77.13	77.38	-214.02	49	-167	0.15	OFF	OFF	OFF
00:37:59	35.3	36	77	77.38	-214.02	52.75	-167	0.15	OFF	OFF	OFF
00:38:00	35.3	36	76.88	77.25	-214.02	56.25	-167	0.15	OFF	OFF	OFF
00:38:01	35.3	36	76.63	77.13	-214.02	59.25	-167	0.15	OFF	OFF	OFF

这类数据如何聚类，请大家给点建议，谢谢

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

大野猩猩

2013-11-21 10:40:16

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ltx5151

2013-11-22 11:50:49

可以是一下用clasification tree。比如CART。如果楼主不在意模型复杂读，可以用boosting trees。其实最简单的聚类方法也可行，知是楼主需要自己定义一下相关函数。看你的需求了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

nuomin

2013-11-22 18:31:22

ltx5151 发表于 2013-11-22 11:50
可以是一下用clasification tree。比如CART。如果楼主不在意模型复杂读，可以用boosting trees。其实最简单 ...

还是沙迦厉害，在做数据挖掘吗？

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

jgchen1966

2013-11-23 00:35:06

Package ‘cluster’中的所有聚类方法都适用混合类数据。不过，象楼主提供的数据作聚类，不知有何意义。另，对时间序列进行聚类的有效性，分歧是很大的。。用GOOGLE 可查到大量的这类讨论。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ltx5151

2013-11-24 12:22:46

nuomin 发表于 2013-11-22 18:31
还是沙迦厉害，在做数据挖掘吗？

哈哈，略有涉猎。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

点击查看更多内容…

统计R浪人

2013-11-25 10:34:50

ltx5151 发表于 2013-11-22 11:50
可以是一下用clasification tree。比如CART。如果楼主不在意模型复杂读，可以用boosting trees。其实最简单 ...

请问楼主，如果聚类时，要求样本的时间顺序保持不变的话，有没有直接实现的聚类函数

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ltx5151

2013-11-26 03:58:20

统计R浪人发表于 2013-11-25 10:34
请问楼主，如果聚类时，要求样本的时间顺序保持不变的话，有没有直接实现的聚类函数

不是十分清楚您的意思。时间变量本身就是可以看做是有序变量的。只要把它作为有序变量处理即可。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

统计R浪人

2013-11-26 09:04:11

ltx5151 发表于 2013-11-26 03:58
不是十分清楚您的意思。时间变量本身就是可以看做是有序变量的。只要把它作为有序变量处理即可。

示例数据time列是被分类对象，v1~v11是对象参数，聚类时要求同一类中时间是连续的，假如分类后第一类含有00:37:45 00:37:46 00:37:47 00:37:48 00:37:49是我想要的。我研究的对象是一台机器，每个工作循环中N个工作状态，这些工作状态机器开启后依次运行，我想把同工作状态的监测数据v1~v11提取出来，所以就产生了我上面提出的聚类要求

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

ltx5151

2013-11-28 07:38:00

统计R浪人发表于 2013-11-26 09:04
示例数据time列是被分类对象，v1~v11是对象参数，聚类时要求同一类中时间是连续的，假如分类后第一类含有 ...

隐约似乎明白点您的意思。那我之前说的方法可能不行。那个是用在classification上的，不是clustering上的。但是你需要自己定义一个相关函数，是的时间不相邻的两个状态的距离足够大，这样聚类时就不会将间断的时间划为一类了。也就是说，比如你的时间点是t1,t2, ... tn，其他数据是x1,x2,....xn。那么你要定义一个距离函数，是的 d((ti,xi),(tj,xj)) > max_{x,y} d((ti,x),(ti,y)) for all i<j-1。因为做clustering是对整体距离的优化，这样的设计可以保证当（（t1,x1）,(t3,x3)）为一类是，（t2,x2）也一定为这一类。否则聚类的结果将不满足最优解。

具体怎么选取函数，就要看你需求了。

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

统计R浪人

2013-11-29 16:50:49

ltx5151 发表于 2013-11-28 07:38
隐约似乎明白点您的意思。那我之前说的方法可能不行。那个是用在classification上的，不是clustering上的 ...

谢谢，很好的建议

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群

扫码加我拉你入群