(非伸手党)应用统计专业大三学生,在学习R的过程中遇到小沟小坎,希望大大们高抬贵手,费心点拨。
拿到的是一份40列,1000行的基因样本数据,预处理完毕,在对其进行k=2,k=3的不同类后,得到了结果,但之后如何对其进行分析,如何做到可视化,就完全没头绪了。
小弟自己做的代码奉上,希望大大看到我的尝试不要笑出声,精心指导一下,谢谢
#组织样本的k-means聚类研究
##一、准备工作
library(stats)
library(ggplot2)
##二、读取数据
data_2<-read.csv(file.choose(),header = FALSE)
##二、对数据进行初步整理观察
dim(data_2)
str(data_2)
summary(data_2)
summary(is.na(data_2))
首先,所有数值并未发现缺失值,也就省去了缺失值处理的步骤
其次,40个样本的最小值比较接近,但最大值存在较大跨度,因此需要对全部数据进行标准化,这里使用Z-score标准化方法
###Z-score标准化方法
data_2_zscore <- as.data.frame(lapply(data_2,scale))
head(data_2_zscore)
set.seed(1)
data_2_zscore<-data_2_zscore[order(runif(1000)),]
###对处理后的数据进行k-means方法计算
data_2_clusters <- kmeans(data_2_zscore, centers = 2)
data_2_clusters$size
data_2_clusters <- kmeans(data_2_zscore, centers = 3)
data_2_clusters$size
源文件下载