全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1429 0
2020-11-09
元数据在大数据世界中的重要性
随着组织认识到要充分利用机器学习,深度学习和人工智能的业务和运营潜力,元数据的重要性只会继续增长。 而且,尽管 实际数据量不断增长,但实际数据的使用和来源周围还有更多的数据或元数据。
元数据定义为一组描述并提供有关其他数据的信息的数据。 电话说明了可以仅从元数据中挖掘的见解。斯坦福大学的研究表明,电话的元数据会泄露大量的个人信息,而无需访问实际的语音记录。电话元数据的图形分析可以揭示频率,新近度,强度以及人与人之间关系的性质[1]。
让我们进一步研究元数据的分析丰富性。
标记从Web分析中学到的教训
标记是大多数Web分析用户都熟悉的概念。标记是跟踪网站每个页面上的访客活动的一种方式(请参见图1)。
图1:Web分析标记过程[2](图片来源:Hosting Canada)
资料来源:https : //en.wikipedia.org/wiki/Web_analytics
当请求每个网页时,Web服务器将返回带有嵌入式JavaScript页面代码的HTML页面。JavaScript页面代码设置要收集的分析数据的值,并在JavaScript库文件中调用函数和全局变量。JavaScript代码为1x1像素图像(也称为Web信标)建立图像请求,该请求将连接到数据中心以进行报告和分析的分析数据的名称/值对的查询字符串连接起来。
标记的优点包括:
数据是通过页面中的组件(“标记”)收集的,通常用JavaScript,Java或Flash编写。
该脚本可以访问Web客户端或用户上未在查询中发送的其他信息,例如访问者的屏幕尺寸和他们购买的商品的价格。
标记可以报告不涉及Web服务器请求的事件,例如Flash电影中的交互,部分表单完成,鼠标事件(例如onClick,onMouseOver,onFocus,onBlur等)。
标记服务管理将cookie分配给访问者的过程。
他们的Thar Hills元数据中有金!!
有时很难想象什么是元数据以及为什么它很重要。让我们看一个与140个字符的推文关联的元数据的示例。即使有大量推文,140个字符似乎也不是很多数据。但是,当您开始将推文与理解对话上下文中的140个字符所需的所有元数据结合在一起时,数据量会爆炸(请参见图2)。
图2: 与推文关联的元数据
这是与140个字符的推文相关的一些元数据[3]:
“回复推文”作者的屏幕名称和用户ID
Tweet的创建日期和时间
作者的屏幕名称
作者的用户名
作者的传记
作者的网址
作者的位置
提交给作者的信息
帐户创建日期
该用户拥有的收藏夹数
该用户关注的用户数
该用户的时区和偏移量
用户选择的语言
使用者是否受到保护
该用户的关注者数量
地点编号
此地点的可打印名称
地点类型
这个地方的国家
发送推文的应用程序
很快就可以看到元数据的数量如何使原始数据量相形见
未开发的数据示例
并非所有数据都对大数据分析有用。但是,某些数据类型对于分析特别成熟,例如:
监控录像。通常,通用元数据(日期,时间,位置等)会自动附加到视频文件。但是,随着IP摄像机的不断普及,将有更多的机会将更多情报嵌入到摄像机中(边缘),以便可以实时捕获,分析和标记素材。这种类型的标记可以加快犯罪调查的速度,增强针对消费者流量模式的零售大数据分析,并提高军事情报水平,因为可以将来自多个地区的无人机视频进行模式关联,人群涌现和反应,或者衡量平叛性的有效性进行比较。
嵌入式和医疗设备。将来,所有类型的传感器(包括可能植入人体的传感器)将捕获重要的和非重要的生物特征信息,跟踪药物有效性;使身体活动与健康相关联,实时监视潜在的病毒爆发等。
娱乐和社交媒体。基于人群或庞大人群的趋势可能是大数据的重要来源,可以帮助将“下一件大事”推向市场,帮助选择股市的赢家和输家,甚至可以预测选举的结果—所有这些基于用户通过社交渠道自由发布的信息。
消费者形象。当我们张贴自己或家人/朋友的照片时,会谈论很多关于自己的事情。一幅图片曾经价值一千个字,但是大数据的出现引入了一个重要的乘数。关键将是引入先进的标记算法,该算法可以在拍摄或上传图片时实时分析图像,也可以在从各个网站汇总后进行批量分析。
这些是在当今常规数据处理过程中通过企业系统运行的常规交易数据的补充。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群