全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2216 2
2017-10-23
(非伸手党)应用统计专业大三学生,在学习R的过程中遇到小沟小坎,希望大大们高抬贵手,费心点拨。
拿到的是一份40列,1000行的基因样本数据,预处理完毕,在对其进行k=2,k=3的不同类后,得到了结果,但之后如何对其进行分析,如何做到可视化,就完全没头绪了。
小弟自己做的代码奉上,希望大大看到我的尝试不要笑出声,精心指导一下,谢谢


#组织样本的k-means聚类研究
##一、准备工作
library(stats)
library(ggplot2)
##二、读取数据
data_2<-read.csv(file.choose(),header = FALSE)
##二、对数据进行初步整理观察
dim(data_2)
str(data_2)
summary(data_2)
summary(is.na(data_2))
首先,所有数值并未发现缺失值,也就省去了缺失值处理的步骤
其次,40个样本的最小值比较接近,但最大值存在较大跨度,因此需要对全部数据进行标准化,这里使用Z-score标准化方法
###Z-score标准化方法
data_2_zscore <- as.data.frame(lapply(data_2,scale))

head(data_2_zscore)
set.seed(1)
data_2_zscore<-data_2_zscore[order(runif(1000)),]
###对处理后的数据进行k-means方法计算
data_2_clusters <- kmeans(data_2_zscore, centers = 2)
data_2_clusters$size
data_2_clusters <- kmeans(data_2_zscore, centers = 3)
data_2_clusters$size

源文件下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-10-23 19:42:25
http://pan.baidu.com/s/1i5H1sqD  数据.csv 链接在这里放出
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2017-10-23 19:46:10
http://pan.baidu.com/s/1i5H1sqD 数据链接
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群