全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SPSS论坛
2944 6
2012-03-27
求高手解答:IMB Modeler里面的k-means的初始群中心是如何选取的?在SAS里面叫做seed,可以指定seed=。。。,但是在modeler里面不可以,那至少我想知道它的初始seed是如何选取的?是随机的选取的还是选数据集的最初几个观察?

先谢了!!!!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2012-3-27 18:24:21
自己顶!!!!!!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-30 09:11:52
      K-Means 的工作原理是根据数据定义一组起始聚类中心。
然后根据记录的输入字段值,将每个记录分配到与其最相似的聚类中。在分配完所有记录后,
更新聚类中心以反映分配到每个聚类的新记录集。然后再次检查记录,以确定是否应将这些
记录重新分配到不同的聚类中,这个记录分配/聚类迭代过程将一直持续,直到达到最大迭代
次数或一次迭代与下次迭代之间的改变不超过指定阈值为止。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-3-30 09:16:27
IBM SPSS Modeler 是上述方法。
IBM SPSS Statistics 是分析者自己指定或者由数据本身结构的中心初步确定。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-4-10 16:32:11
kuangsir6 发表于 2012-3-30 09:11
K-Means 的工作原理是根据数据定义一组起始聚类中心。
然后根据记录的输入字段值,将每个记录分配到 ...
先谢了,你说的是一般聚类的初始中心确定后的迭代方法。当然能够指定初始中心就最好了,不可以的话,不同工具也有不同的指定方法。研究了一下,找出modeler里面确定初始中心的算法了,在这里给大家分享一下,大家应该能看懂的,就不翻译了:

Selecting Initial Cluster Centers
The user specifes k, the number of clusters in the model. Initial cluster centers are chosen using a
maximin algorithm:
1. Initialize the first cluster center as the values of the input fields for the first data record.
2. For each data record, compute the minimum (Euclidean) distance between the record and each
defined cluster center.
3. Select the record with the largest minimum distance from the defined cluster centers. Add a new
cluster center with values of the input fields for the selected record.
4. Repeat steps 2 and 3 until k cluster centers have been added to the model.
Once initial cluster centers have been chosen, the algorithm begins the iterative assign/update
process.
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2012-4-10 22:09:46
jason_huo 发表于 2012-4-10 16:32
先谢了,你说的是一般聚类的初始中心确定后的迭代方法。当然能够指定初始中心就最好了,不可以的话,不同 ...
明白你的问题了,谢谢楼主提供的算法。是SPSS公司在Modeler 里面介绍的算法吗?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群