全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
838 0
2020-11-06
人迹罕至的数据科学问题
如果您想为一个好的解决方案做出重大贡献,那么这不仅仅是一个问题,而是一个项目,对于专家数据科学家和/或数学家来说,甚至可能是一个长期的项目。但是,对于初学者来说,这也是一个不错的项目,主要涉及使用各种机器学习技术对已创建的最大数据集进行探索性数据分析,以磨练您的数据科学专业知识。
数据集包含无限数量的观察值(所有实数),尽管您可以从小到10
该问题还使您可以体验诸如时间序列中的变化点检测,模糊聚类,使用经验分布进行模型拟合甚至检测最佳样本量之类的概念。我在本文中讨论的解决方案的方法在很大程度上依赖于数据科学/机器学习,而不是概率论。
1.问题
它包括使用各种测试和计算来猜测附加在某些数字序列上的基础统计分布。所讨论的序列的行为类似于随机过程。这些序列与新的密码系统相关。能够发现隐藏的分布,可以使您破坏此处描述的新加密系统 。
简而言之,问题在于研究以不寻常的数值系统表示的随机数的数字(0和1)分布:base b,其中b是1.5到2之间的整数。b = 2对应于标准二进制系统,所涉及的分布是均匀的。在这些基数中,数字-就像在二进制base-2系统中一样-始终为0或1。尽管与二进制系统不同,0和1的比例不等于50%,并且有些自动数字数字序列中的相关性。
非标准基数计算算法
要计算以b为底的x在0到1之间的数字,请按以下步骤进行操作:   
从x(1)= x和a(1)= INT(bx)开始。     
迭代计算x(n)= b * x(n -1)-INT(b * x(n -1))和a(n)= INT(b * x(n))。         
此处INT表示整数函数,也称为底函数。以上算法只是贪婪算法的一种。在所有情况下,x(n)是0到1之间的实数,而a(n)是x的第n个数字,以b为底。        
一旦知道以b为底的数字,就可以使用公式轻松检索数字x   
通常,由于计算机精度的限制,如果要计算超过45位左右的数字,则需要使用高性能计算。我的书在第8章中介绍了如何执行此操作。但是,由于序列{ x(n)}和{  a(n)}的遍历性 ,这不是问题,您可以忽略它(解释超出了本文的范围;在我的书中对此进行了解释,供那些对理论感兴趣的人使用。
2.解决问题的步骤
我们广泛关注x(n)的序列,被视为随机过程或时间序列 X,其中x(1)= x是介于0和1之间的任意实数,称为种子。一些种子(称为坏种子)会引起问题,但它们很少见,因此我们可以忽略此问题。我们还是要远离他们。同样,有关坏种子的理论细节,请阅读我的书。
一旦连接到分配X是已知的(或至少,我们有一个良好的近似),它是简单的计算的数量的数位分配X在碱b,即,0和1分的比例,甚至自动连续数字之间的相关结构。
所有这些分布都独立于种子x(如果x不是坏种子),并且仅取决于基数b。理论细节再次出现在我的书中 (出于好奇,请查看讨论均衡分布的书本部分。)
从理论上讲,您可以通过解决以下随机积分方程来解决问题(即,找到与X关联的分布):
我尝试过,就像我在类似的情况下做过很多次(请参阅我的书)一样,但是在这里找不到确切的解决方案。因此,让我们集中在另一种实用的方法上。
步骤1:X的分布有3个分支
使用数据科学技术,证明连接到X的分布具有三个分支,两个变化点p和q,并且仅依赖于b:
y在0到p之间有一条腿,
y在p和q之间有一条腿,
y在q和1之间为1条腿。
每条支脚都具有平滑的形状,如下图所示,但p和q代表密度函数的不连续点。一个非平凡的问题包括确定p和q,这取决于b。请注意,如果b = 2(对应于标准base-2系统),则这三个分支合并,并且[0,1]上的分布是均匀的,这一事实很容易检查。
步骤2:每条腿看起来像是均匀分布的
使用适用于经验百分位分布的模型拟合技术(这将在下一部分中的Excel电子表格中完成),这些支腿看起来几乎像均匀分布,但不完全相同:有些曲率,但对于大多数b来说几乎看不到。
步骤3:b的特殊值会产生理想的逐步均匀分布
对于b接近1.80的情况,看起来分布可能是三个完全均匀的分布的组合,如下图所示。b的哪个值(如果有)会产生这种特殊情况?
尝试 b = 1.8019(大约)。在这种情况下,根据经验证据,我们大约有
p = 1 / b  
在第二回合中P(X   <   y)= y -1 + 2 / b
x 等于零的数字的比例是-1 + 3 / b?66%。
练习:也尝试使用b = 1.85。
3. Excel电子表格和结果
为了非常准确地猜测X的分布形状,对于给定的x和b,您可以按照以下步骤进行操作:
计算吨他第一? 的= 35000值X(?)和一个(?)  
计算K  = 200等距参数值的经验百分位分布(表示为F)。
直观地检测两个变化点p和q(提示:绘制F的导数,而不是F,以便于检测-请参见下面的图表)
尝试 使用线性回归模型拟合 F曲线,分别针对三条腿;显示回归参数和R平方
计算数字比例等于零
这些计算(和图表)可以使用基本的Excel公式在我的Excel电子表格中完成。 点击这里 下载。一个重要的问题是确定您需要哪种样本大小(即N),以及要使用哪种 K来获得所需的准确度。经验法则是取K = SQRT(N)。
下图显示了F的估计导数。如果将这些点连接起来,它将看起来像时间序列(它们实际上是时间序列)。这些点彼此之间保持未连接状态,从而使3簇结构(对应于三个支腿)在视觉上更加醒目。注意,当导数看起来很平坦时(b = 1.80的情况),这意味着X的分布非常接近逐步均匀。
由于可以通过增加N和K  (在给定b的情况下以高精度确定p,q等)来获得任何级别的精度,因此您可以使用下表中显示的数据作为以下基准测试工具:
时间序列中的变更点检测:何时发生,以及变更有多大
使用一些聚类算法检测三个聚类(即使边界看起来很模糊,它们实际上也是线性可分离的)
取决于b,它可能很容易也可能很困难。请注意,理论上的百分位数分布(当N和K趋于无穷时,极限F会满足)
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群