Zipf分布的有趣应用:数据清除
用于在其中一些看法具有非常高的值(或冲击),占总数的大部分模型的情况下,虽然很长的观察尾有中型,小型,或者非常小的值。有点像 80/20规则。示例包括:
Google搜索中关键字的分布情况(按受欢迎程度或点击量排名)
LinkedIn上的配置文件分布,按连接数排序
互联网网站或网页的分布,按互联网流量(给定时间段内的浏览量)排名
在这里,我们使用它来建模笔记本电脑或云(针对特定公司)在文件(或数据)上的分布(按大小排序)。为笔记本电脑计算此分布(例如)的想法是确定可以删除的文件,以节省尽可能多的空间。许多用户的计算机上有大量文件,许多文件没有用处,从而减慢了可用于存储的巨大空间。简而言之,这是一个实用,简单且非常实用的数据存储优化问题。我们还将在优化用于在大型社交网络(如Facebook或LinkedIn)上存储用户数据的资源的背景下讨论此问题。
图片来源:这里
数据清除过程很简单,包括三个步骤:
创建一个旧文件列表,查找名为Archives或Old的文件目录;检查每个目录的大小,创建日期和最新文件,以及其中包含的文件数
创建前20个最大文件的列表-您仍然需要或使用几个文件?在我的笔记本电脑上,到目前为止,最大的文件是一个应用程序,Microsoft会在不知情的情况下随时间自动安装/更新该应用程序,这对我来说似乎毫无用处(我在Internet上对此进行了一些研究。)它,此后再也没有遇到任何问题。
搜索具有特定模式的大块小文件,这些文件打包在一起会占用很多空间(在我的情况下,我发现了很多图像,一些视频以及很多很旧的发票)
您可以备份所有这些文件,然后再删除它们。
对于大型社交网络,数据清除包括识别不活动的帐户或配置文件-它们可能代表所有成员的60%。例如,Facebook在美国的个人资料远远多于美国的居民。识别假账户和重复账户,合并否则有效的重复账户。
我们倾向于认为这些公司拥有的存储空间(和Internet带宽)数量是无限的,或者存储是如此廉价以至于没有关系。但是,服务器过载会导致错误并减慢网页加载速度。它还迫使这些公司在用户连接图上施加限制:在Facebook上,您只能有5
社交网络管理这些庞大“人群”的另一种方法是向会员提供优质服务。达到5
题库