树状图在多变量数据对象的图表中具有独特性:它只能作为层次聚类分析结果的一部分生成。此外,树状图既可生成为独立图表,也可作为对象添加至热图(由层次聚类分析生成)。树状图选项页面的格式对话框支持您对这些图表对象进行添加和自定义,其内容与布局会根据树状图是独立图表还是热图附加项而变化。
所需数据结构
生成树状图(无论是独立图表还是热图装饰元素)的唯一方式,是将其作为层次聚类分析输出的一部分。您的数据无需特定数据结构。Prism会在层次聚类分析输出中按需自动生成此类图表。
格式选项(独立树状图)
选项页面顶部的复选框可控制树状图在图表中的显示/隐藏(macOS系统中为切换开关,非复选框)。
分支
树状图选项页面的该选项卡用于自定义树状图分支(线条)的视觉外观。若您在进行层次聚类分析时未指定聚类数量(或切割高度),则仅能使用“单一颜色”外观选项;若您指定了聚类数量(或切割高度),则还可选择“按聚类区分”外观选项,以此为生成的树状图中每个聚类分配不同视觉属性。这些属性包括:
- 配色方案/颜色:选择内置配色方案为分支按聚类分配颜色,或选择特定色系并自定义颜色
- 透明度:设置树状图分支的透明度
- 粗细:定义树状图分支的线宽
- 样式:定义树状图分支的线条样式
- 方向:指定树状图轴系布局,可选“垂直”(纵轴为距离轴,横轴为标签轴)或“水平”(横轴为距离轴,纵轴为标签轴)
标签
这些选项用于指定树状图标签轴上标签的显示样式。标签类型:可在变量值(默认)、字母(A,B,C…)或数字(1,2,3…)中选择。起始位置:指定第一个显示的标签(此标签之前的所有标签将从图中省略)。间隔:指定标签的显示频率。
示例:若标签类型为数字,起始位置设为4,间隔设为3:
- 标签1、2、3不显示
- 标签4为第一个显示的标签
- 标签5、6不显示
- 标签7显示,8、9不显示
- 标签10显示,11、12不显示……
此外,在该选项卡中,还可设置树状图标签的字体和旋转角度。
距离轴
距离轴有时也被称为[高度轴],用于显示层次聚类过程中簇与簇之间的形成距离。
这些控件用于指定距离轴的视觉属性,包括:
注意:目前无法调整距离轴的显示范围、刻度间隔或其他属性。
格式选项(作为热图一部分的树状图)
选项页顶部的复选框可用于开启或关闭图表中的树状图。在macOS系统中,该控件为切换开关而非复选框。注意:此选项会统一启用或禁用图表上所有树状图。
在层次聚类分析中,您可以选择对行、列或两者执行聚类(并生成树状图)。若您对行和列都执行了聚类,但只想在关联热图中显示其中一个树状图,请勿使用此总开关,而是将对应的下拉菜单(垂直轴或水平轴)设置为“None”。
添加到热图中的每个树状图,都由其绘制所在的轴定义:即垂直轴或水平轴。这是因为热图本身可将数据行映射到水平轴或垂直轴,数据列同理。因此,若数据行被分配到热图的水平轴,则水平轴对应的树状图即代表对数据行的聚类结果。若未对行或列执行层次聚类分析,则对应轴的树状图选项会被禁用。
对于已执行层次聚类分析的每个轴,您可以指定该轴树状图的整体外观:
- None:禁用(或隐藏)该树状图。这是仅禁用其中一个树状图、保留另一个的方法
- 单一颜色:为树状图的所有分支统一设置一组样式(颜色、透明度、粗细、线型)
- 按簇可变:为层次聚类分析定义的每个簇,分别设置样式(颜色、透明度、粗细、线型)
层次聚类分析中热图和树状图的可视化图表
-选择可视化(图表)输出
层次聚类分析最常见的输出形式,是热图和树状图的可视化展示。在分析参数的此选项卡中,您可以指定要生成那些图表,作为分析结果的一部分输出。
可视化层次聚类结果
树状图
启用此选项将创建独立树状图,用于展示对行或列执行的聚类(具体取决于在分析参数对话框[数据]选项卡中选择的聚类方向)。
若您在分析参数对话框[选项]选项卡中指定了聚类数量或截断高度,此信息将在树状图中以不同颜色分支的形式呈现,对应每个指定的簇。
热图
启用此选项将基于标准化数据创建热图(是否标准化取决于分析参数对话框[选项]选项卡中选择的缩放设置),同时生成与热图行或列对齐的树状图(具体取决于分析参数对话框[数据]选项卡中选择的聚类方向)。
若您在分析参数对话框[选项]选项卡中指定了聚类数量或截断高度,此信息将树状图中以不同颜色分支的形式呈现,对应每个指定的簇。
注意:若热图上同时显示行和列树状图,颜色方案将分别独立应用与行树状图和列树状图。
用于评估最佳聚类选择的图表
层次聚类的一大挑战是确定将数据划分为多个簇。理论上,最少可以是1个簇(所有观测值归为一组),最多可以是N-1个簇(N为待聚类的观测值数量)。极端情况下,仅两个观测值聚为一组,其余每个观测值各自为簇。若选择N个簇(N为待聚类观测值数量),则等同于未执行聚类,因为每个观测值都属于独立的簇。
那么如何选择“最优”的聚类数量?有多种方法可实现,Prism提供了三种常见的可视化方法:
- 肘部图(elbow plot)
- 轮廓图(silhouette plot)
- 间隙统计图(gap statistic plot)
下文将简要介绍这三种方法,其背后的数学原理可在本文的其他章节中查阅。
肘部图
从历史上看,该图常与聚类分析一同呈现,用于展示每一种可能的聚类数(从1个聚类到N-1个聚类,N为待聚类数据集中的观测对象总数)对应的组内平方和。当观测对象被划分为更多聚类时,组内平方和会随之降低。通常,当聚类数从1开始增加时,该值会快速下降;但随着聚类数持续增加,每新增一个聚类所带来的降幅会逐渐收窄,这可被视为“边际收益递减”的问题。
该方法的核心思路是找到一个临界点:新增一个聚类后,误差不再出现显著降低。从视觉上看,这个点出现在曲线的“肘部”(即曲线从快速下降转为平缓下降的弯折处)。但在实际应用中,通过该方法判断“最优”聚类数主观性极强,可靠性较低。提供此图是为了与大多数其他软件包的输出结果保持一致,不过它通常并不被认为能精准确定最优聚类数。
轮廓图
轮廓图的原理无需复杂的数学概念即可理解:对于任意指定的聚类数,每个观测对象都会被分配到唯一的聚类中。轮廓系数的计算逻辑是:先计算该观测对象与同聚类内其他观测对象的平均距离,再计算其与最近邻聚类中所有观测对象的平均距离,通过两者差值得到。
理想情况下,每个观测对象应与同聚类内的其他对象距离极近,而与不同聚类的对象距离较远;若某观测对象到同聚类内其他对象的平均距离,与到最近邻聚类对象的平均距离完全相等,则属于边界模糊的情况。
核心总结:
- 轮廓系数的取值范围为-1到1
- 轮廓系数接近1:表明该观测对象与同聚类内其他对象匹配度高
- 轮廓系数为0:表明该观测对象处于两个不同聚类的“边界”位置
- 轮廓系数为-1:表明该观测对象与同聚类内其他对象匹配度极差,实际上更接近最近邻聚类中的对象
对于任意指定的聚类数,都可以为每个观测对象计算轮廓系数,随后可计算所有观测对象轮廓系数的平均值。Prism输出的轮廓图中,X轴代表聚类数(从1到N-1,N为观测对象总数),Y轴代表对应聚类数下的平均轮廓系数。判断分析“最优”聚类数的一种方法是:找到平均轮廓系数最大的点,这代表:从整体平均水平来看,观测对象与自身所属聚类的匹配度最佳。
间隙统计量图
核心原理
间隙统计量图的核心思路是验证数据是否存在天然聚类结构:先评估实际数据在不同聚类数下的聚类效果,再与同纬度、同取值范围的随机数据在相同聚类数下的效果对比。若数据存在真实的天然分组,则必然存在某个聚类数,使实际数据的聚类效果显著优于随机数据。
为保证对比公平,随机数据需满足:
- 维度与原始数据一致(行数、列数相同)
- 每个变量的取值范围与原始数据完全匹配
- 基于该范围的均匀分布生成数值,再对随机数据执行聚类分析
为避免抽样偏差,上述“生成随机数据à聚类à对比”的过程需重复多次。
核心逻辑(非数学简化版)
若数据中存在真实的天然聚类(簇),则实际数据聚类后的簇内紧密度会远高于同范围随机数据生成的聚类。此处的“簇内紧密度”用组内平方和(W)衡量:计算每个聚类中所有点到其聚类中心的距离平方,再求和,该值记为W。
具体步骤:
- 计算原始数据在k个聚类下的组内平方和,记为W(observed,观测值)
- 多次生成同范围的随机数据,计算对应k个聚类下的组内平方和,取平均值,记为W expected(期望值)
- 基于W与W expected计算间隙统计量(Gap statistic),不同聚类数对应不同的间隙统计值
可视化与最优聚类数判定
间隙统计量图以聚类数(k)为X轴,间隙统计量值为Y轴。采用该方法判定“最优聚类数”,需找到满足一下条件的最小k值:
Gap(k) ≥ Gap(k+1) - SDk+1
通俗解释:最优聚类数是满足“间隙统计量值≥下一个聚类数的间隙统计量值-该聚类数的标准差”的最小k。这一规则通常可简化为:找到间隙统计量图中的首个“峰值”(但并非绝对)。