相关性分析是指对两个或者多个具备相关性的元素进行分析,从而衡量两个变量因素的相关密切程度,相关性的元素之间需要存在一定的联系概率才可以进行相关性分析;
当两个变量之间存在非常强烈的相互依赖的关系的时候,我们可以说两个变量之间存在高度相关性,若两组的值一起增大,称之为正相关,若一组值增大时,另一组值减小,称之为负相关;
一般使用皮尔逊算法计算相关性,皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1到1之间;
计算完相关性过后,可以通过相关性矩阵做可视化,有热图、柱形图、散点图、折线图、饼图等多种模式可以选择;
使用两个新的R包:correlation和see(一个用来计算相关性,一个用来画图)
csv文件是用逗号分割的文本文件;
在ggplot2中,所接受的数据集必须为数据框(data.frame)格式,这种数据框的好处是数据易于存储,也能保留原有绘图参数下,用%+%方便的变更已有数据集;
ggplot2进行数据分组是必须根据行,而不能根据列。所谓长数据是变量不是放在各列上,而是排成一列,每一个变量都分别占其中的几行,这样能方便的对每个变量进行分组;
映射(mapping):aes()函数是ggplot2中的映射函数,所谓的映射即将数据集中的数据关联到相应的图形属性过程中的一种对应关系,ggplot2中不同的几何对象对应着不同的图形属性;
分组(group)也是ggplot2中映射关系的一种,默认情况下,ggplot2把所有的观测点分为了一组,如果需要把观测点按额外的离散变量进行分组处理,必须修改默认的分组设置。
几何对象执行这图层的实际渲染,控制着生产的图像类型
geom_abline:线图,由斜率和截距指定;
geom_area:面积图(即连续的条形图);
geom_bar:条形图;
geom_bin2d:二维封箱的热图;
geom_blank:空的几何对象,什么也不画;
geom_boxplot:箱线图;
geom_contour:等高线图;
geom_crossbar:类似箱线图,但是没有触须和极值点;
geom_density:密度图;
geom_density2d:二维密度图;
geom_errorbar:误差线图;
geom_errorbarh:水平误差线;
geom_histogram:直方图;
geom_hline:水平线;
geom_line:线;
geom_linerange:区间,用竖直线来表示;
主题(theme)主题系统控制着图形中的非元素数据额外观,它不会影响几何对象和标度等数据元素,主题修改时一个对绘图精雕细琢的过程,主要对标题,坐标轴标签、图例标签等文字调整,以及网格线、背景和轴须的颜色搭配;
scale_brewer:调色板,来自colorbrewer.org网站展示的颜色标度;
scale_contionuous:连续标度;
scale_data:日期;
scale_datetime:日期和时间;
scale_discrete:离散
scale_gradient2:两种颜色构成的渐变色;
scale_gradientn:n种颜色构成的渐变色;
scale_manual :手动指定离散标度;
scale_shape:用不同的形状来表示不同的数值;
scale_size:用不同大小的对象来表示不同的数值;
数据为

每一列为一个变量,这个数据可以是相同组织不同生物学重复之间的表达量的值

# 查看工作路径;
#读入文件
#查看文件
#安装软件包
#加载软件包
#计算相关性
#将相关性结果导出
#根据相关性结果进行画图
但是我用自己的数据在重复的时候,发现不能完全的展示结果:
最下面的一行和最右侧的一行不能显示,这个应该有参数可以调节,同时还可以设置参数,调节小数点的位数;
第二种绘制相关性热图的放法:
使用coorplot软件包,先计算cor,再画图;