全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1115 0
2020-12-11
Analytics(分析)入门:数据挑战
组织(无论是财富500强公司还是新兴公司)都在忙于收集PB级数据。这些数据的范围从面向客户的数据(例如,单击鼠标,走进商店,货架上的产品可见性)到运营数据(例如,研发发现,销售互动,机械故障和产品缺货) 。
尽管每个人都同意数据作为业务战略中关键差异化因素和推动因素的重要性,但很少有人重新调整其数据实践以反映这一意图。这显然是错误的:在数据收集以光速行进的同时,数据管理需要赶上。
https://lh3.googleusercontent.com/JfjE4eLbNTLmoF9Fx0jaqFptY9ZLCVfxIkdaKpoJLnwNWqIbha2gDQNpKHIQE0y9PV3HfGA6TSbsn99qAMaH4VkxKBQJKFJB1QC1F4Y3C
迄今为止,这家市值达2万亿美元的庞然大物亚马逊仍然功不可没。尽管其电子商务部门除了显示相关的广告和产品外,显然还使用数据来预测客户的行为,但数据是其利润最高的业务部门-Amazon Web Services(AWS)的基础。AWS为各种规模的企业提供云计算,存储和分析服务,约占Amazon.com Inc.运营利润的70%。
实际上,所有其他大型科技公司-Microsoft,Alphabet和IBM-也都将赌注押在了云计算服务上。所有这些巨人都有巨大的投资,各个部门的组织都将其投入到大数据管理中。这些对数据的投资是否已开始获得回报?越来越多的高管承认对数据投资实现的投资回报率(RoI)感到失望。有什么方法可以重新考虑或优化这些投资?为了充分利用被炒作的“大数据潜力”,企业领导者需要克服一些数据挑战。
数据采集
照亮黑暗数据
收集数据的能力远远超出了组织可以分析此数据的吞吐量。廉价的数据存储和按需付费的云模型推动了这一趋势,这些模型由第三方服务提供商托管和管理。这导致组织内部出现成群的“黑暗数据”。
引用维基百科-
“暗数据是通过各种计算机网络操作获取的数据,但不以任何方式用于获取见解或用于决策。”
有时,组织甚至都不知道正在收集此类数据。根据IBM的一项研究,大约90%的复杂IT系统(传感器和遥测仪)生成的数据从未得到利用。为了使数据分析的未来更加光明,需要使用暗数据,从而为合理化成本和简化操作铺平了道路。
更加黑暗的一面
尽管成年企业的数据量巨大,但大多数传统企业仍在努力收集有关客户的宝贵数据。通常,没有适当的数据收集实践,并且传统的IT系统无法跟上不断增长的数据量和复杂性。运营数据(销售分类帐,订单簿,物流等)是唯一的优先事项,而其他数据通常会丢失或过时。
根本原因是缺乏对基于价值的数据收集的认识-了解需要解决哪些问题以及可以/应该收集哪些数据进行分析。为了解决这个问题,需要将观念转变,将数据视为战略资产而不是IT负债。
数据存储与处理
IT基础架构– IT就是它的本质
尽管大数据和云技术的发展日新月异,IT系统仍需要跟上不断增长的数据量,速度和种类。通常,需要多种不同的技术和工具(例如NoSQL数据库,Hadoop,Spark等)来管理不同利益相关者的期望-例如流数据,图形数据或非结构化数据。来自不同IT系统的数据集成和迁移是另一个挑战。很少有IT平台没有或没有内置的对数据迁移的支持,否则这些系统中的数据可能不会彼此同步。
为了解决这些问题,需要以数据基础架构的购置和升级,员工培训以及入职的形式进行更多的投资。重复数据删除,压缩和索引编制等技术可以显着改善数据库成本和性能。尽管数据体系结构应该足够复杂,可以满足将来在规模和敏捷性方面的需求,但它还应该与其他IT系统(尤其是ETL和分析平台)无缝运行。
公司无需内部开发功能,而是可以利用现有的云服务,例如AWS,Microsoft Azure等。下图显示了7 V的框架,在确定数据基础架构要求时通常会引用该框架。
数据挑战-IT基础架构
数据数字化–九云
尽管不可能对每项业务都实现100%的数字化,但通过采用自动化和光学字符识别(OCR)设备,可以将通过物理表格,发票,收据和独立的excel表格收集的许多数据转换为可用形式。非结构化数据占生成的全部数据的80%,这一直是深度学习最新进展的重点。
由于捕获和分析此数据的操作难题以及缺乏适当的用例,这些信息(以文本,图像,地理空间数据,区块链等形式)经常被忽略。
数据质量–垃圾回收,垃圾回收
不良的数据质量很可能是数据利用不足的主要原因。基于不完整,有偏见和不正确数据的发现通常会存在缺陷,并且业务经理经常发现很难信任此类数据支持的决策。用于数据记录,维护和更新的非标准和手动过程加起来会导致数据错误和重复。
更麻烦的是,这样的错误经常会被忽略,从而使数据洞察力变得扑朔迷离。因此,当务之急是通过数据验证,数据卫生检查,质量控制和数据清理实践的机制来不断提高数据质量。外部服务提供商或商业软件也可以帮助缓解这些问题。以下信息图表总结了关键数据质量参数,人们需要重点关注这些参数以更好地利用数据的功能。
数据挑战-数据质量
数据治理
隐私和诚信问题–给那个男人一个cookie!
有了大数据,权力就会受到更大的审查。随着新的,广泛的数据隐私法(例如GDPR)出现,组织受到法律和合规性问题的困扰。虽然这是一个良好的开端,但仍然存在很大的灰色区域。GDPR没有明确说明什么包括“个人数据”以及什么是对此类数据的“合理”保护水平。
数据的基本假设应该是为消费者提供更好的服务,因此,拥有敏感用户数据(例如个人和财务详细信息)的面向消费者的企业需要重新考虑该数据将如何以及何时提供帮助,谁是所有者,谁是谁。此数据的最终用户。
为了解决对数据道德的担忧,需要事先告知用户正在存储哪些数据以及将来在组织内部或外部如何共享和使用这些数据。此外,诸如数据屏蔽和加密之类的技术可用于帮助缓解客户和高层管理人员对数据隐私的担忧。
安全和治理风险–储存但安全
存储在服务器中的数据通常无法满足其使用需求,从而导致不必要的监管和维护负担。数据生命周期管理可能是朝这个方向迈出的正确一步。数据共享实践也不经常更新,这意味着组织中的相关人员(开发人员或决策者)没有访问数据所需的知识,权限或工具。内部数据审计应突出数据存储,并应及时进行共享做法。
这将确保清除垃圾数据,为数据涉众设置清晰的定义和期望,并最大程度地降低数据丢失或数据泄漏的风险。就此类事件造成的业务损失和声誉损失而言,数据泄露或黑客入侵都可能是灾难性的。为了减轻此类风险,组织需要通过制定内部策略和数据所有权控制措施,限制对数据的未经授权访问以及加强网络安全措施来提高数据安全性。
题库
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群