用于分类数据分类的开源统计框架
序数分类数据的分析和分类在大多数科学领域都很重要,在政府和企业中无处不在。
可以在问卷中找到序数数据的示例,以测量意见或自我报告的健康状况。序数数据的一个著名示例是李克特量表 [1]
(DISLIKE = 1,DISLIKE SOMEWHAT = 2,NEUTRAL = 3,LIKE SOME WHAT = 4,LIKE = 5)。
其他示例是以年龄(0-20、21-40、41-60、61-80,高于80)为单位的年龄,以(<18.5,18.5-24.9,25-29,> = 30)(针对体重不足,正常体重,超重,肥胖)或收入类别以及按分位数(例如,五分位数或十分位数)分组的社会经济指标。
“在所有情况下,当分析人员通过将可能的值分解为一组类别来测量或汇总固有连续变量时,就会产生有序刻度。” [2]
处理序数数据的分布时的一个特殊困难是指定离散度的概念并定义具有适当属性的度量。最近,研究人员已经意识到了这个问题,并提出了基于频率分布来测量序数数据的离散度的问题[3]。
按照这种方法,我们引入了易于使用的 统计框架, 用于对 均匀分布进行识别和分类。我们提出了 同质性 和 位置指数, 以测量序数分类分布的集中度和中心值。我们还提供了一套透明的标准,用户可以遵循该标准来确定给定的同质性值是否指示分布的中心值附近的值“高”或“低”集中。
我们运用我们的框架评估了常用的SA3澳大利亚人口普查地理区域的社会经济同质性。
图1:对均质区域进行分类的概念框架。资料来源 :卫生保健变化分析中同类社会经济领域的分类和识别框架。
在图 1中 ,我们举例说明了所提出的概念框架,该框架可用于评估健康地理研究中的同类区域。第一个决定是选择较大的地理区域(例如SA3)及其子单元(例如SA1:较小的ABS地理区域)。然后,必须定义一个上下文维度,沿着该维度可以测量地理区域的同质性(例如SEIFA,地区社会经济指标)。第三,必须指定在模型中使用的变量的选择,因为测量变量的多个无序或多个有序类别之间的同质性需要一组不同的测量工具(例如IRSD十分位数)。最后,选择用于表示区域分布特征的统计模型。
这组分析使用SA3来评估地理区域的同质性。但是,该方法可用于评估任何指定地理边界上的社会经济同质性。重要的是要注意,该方法不需要访问精细的地理比例数据,并且可以轻松地应用于分类序数变量的任何分布。因此,它只需要分配较大区域的属性即可。
我们的方法基于概率分布的一般理论,我们的目的是根据“高”(即均质)和“低”(即异质)概率集中度为均质性度量提供自然基准分配。当前,尚没有可以用来评估分类序数变量的同质性的公认基准。在这项工作中,我们展示了如何使用提议的统计指标来调查地理区域的多样性,并确定何时不应该使用分析单位通过社会经济状况来报告健康结果。
题库