大数据到小数据–欢迎来到水库采样世界
大数据是指结构化数据和非结构化数据的组合,可以以PB或EB来度量。通常,我们利用3V来表征大数据3V就是数据量,数据类型的多样性以及处理速度。
这三个特征使处理大数据变得困难。因此,就大量服务器存储,复杂的分析机和
数据挖掘方法的投资而言,大数据的成本很高 。许多组织在技术和经济上都发现这很麻烦,因此正在考虑如何使用更少的复杂性来实现 类似的结果。因此,他们正在尝试将大数据转换为小数据,其中包括可用的数据块。下图[1]显示了一个比较。
数量与效果
让我们尝试探索一种简单的统计技术,该技术可用于从大数据创建可用的数据块。应该从基本上代表总体的子集的角度选择样本,以使其能够正确代表总体。这可以通过采用统计测试来确保。
水库采样介绍
油藏采样的关键思想是从大量的数据中创建一个“油藏”。令“ N”为总体数量,“ n”为样本数量。总体中的每个元素都有相等的概率出现在样本中,并且该概率为(n / N)。有了这个关键思想,我们必须创建一个子样本。必须注意的是,当我们创建一个样本时,分布不仅在行方面而且在列方面都应该相同。
通常,我们只关注行,但是保持列的分布也很重要。列是从中学习训练算法的功能。因此,我们还必须对每个功能进行统计测试,以确保分布相同。
该算法以这种方式进行:用大小为“ N”的总体中的前“ n”个元素初始化存储库。然后读取数据集的每一行(i> n)。在每次迭代中,计算(n / i)。我们用概率逐渐减小的下一组“ n”个元素替换储层中的元素。
对于i = 1到n
R [i] = S [i]
对于i = n + 1到N:
j = U?[1,i]
如果j <= n:
R [j] = S [i]
统计检验
如前所述,我们必须确保储层中的所有列(特征)均与总体分布相同。对于连续特征,我们将使用Kolmogorov-Smirnov检验;对于分类特征,我们将使用Pearson的卡方检验。
Kolmogorov-Smirnov检验用于检查总体和样本的累积分布函数(CDF)是否相同。我们将总体F_N(x)的CDF与样本F_n(x)的CDF进行比较 。
?? ?? ??
储层采样-Kolmogorov-Smirnov试验
如果分布相同,则为n-> N,D_n-> 0。必须对数据集的所有连续特征执行此测试。
对于分类特征,我们可以执行Pearson的卡方检验。令O_i为类别“ i”的观测数,ne为样本数。令E_i为类别“ i”的预期计数。然后E_i = N p_i,其中p_i是来自类别“ i”的概率。然后,卡方值由以下关系式给出:
储层采样-卡方检验
如果卡方= 0,则表示观测值和期望值相同。如果统计检验的p值大于显着性水平,那么我们说样本具有统计显着性。
题库