Analytics(分析)入门:数据挑战
组织(无论是财富500强公司还是新兴公司)都在忙于收集PB级数据。这些数据的范围从面向客户的数据(例如,单击鼠标,走进商店,货架上的产品可见性)到运营数据(例如,研发发现,销售互动,机械故障和产品缺货) 。
尽管每个人都同意数据作为业务战略中关键差异化因素和推动因素的重要性,但很少有人重新调整其数据实践以反映这一意图。这显然是错误的:在数据收集以光速行进的同时,数据管理需要赶上。
https://lh3.googleusercontent.com/JfjE4eLbNTLmoF9Fx0jaqFptY9ZLCVfxIkdaKpoJLnwNWqIbha2gDQNpKHIQE0y9PV3HfGA6TSbsn99qAMaH4VkxKBQJKFJBFQ8B1QC1F1B
迄今为止,这家市值达2万亿美元的庞然大物亚马逊仍然功不可没。尽管其电子商务部门除了显示相关的广告和产品外,显然还使用数据来预测客户的行为,但数据是其利润最高的业务部门-Amazon Web Services(AWS)的基础。AWS为各种规模的企业提供云计算,存储和分析服务,约占Amazon.com Inc.运营利润的70%。
实际上,所有其他大型科技公司-Microsoft,Alphabet和IBM-也都将赌注押在了云计算服务上。所有这些巨人都有巨大的投资,各个部门的组织都将其投入到大数据管理中。这些对数据的投资是否已开始获得回报?越来越多的高管承认对数据投资实现的投资回报率(RoI)感到失望。有什么方法可以重新考虑或优化这些投资?为了充分利用被炒作的“大数据潜力”,企业领导者需要克服一些数据挑战。
数据采集
照亮黑暗数据
收集数据的能力远远超出了组织可以分析此数据的吞吐量。廉价的数据存储和即付即用的云模型推动了这种趋势,这些模型由第三方服务提供商托管和管理。这导致组织内部出现成群的“黑暗数据”。
引用维基百科-
“暗数据是通过各种计算机网络操作获取的数据,但不以任何方式用于获取见解或用于决策。”
有时,组织甚至都不知道正在收集此类数据。根据IBM的一项研究,大约90%的复杂IT系统(传感器和遥测仪)生成的数据从未得到利用。为了使
数据分析的未来更加光明,需要使用暗数据,从而为合理化成本和简化操作铺平了道路。
更加黑暗的一面
尽管成年企业的数据量巨大,但大多数传统企业仍在努力收集有关客户的宝贵数据。通常,没有适当的数据收集实践,并且传统的IT系统无法跟上不断增长的数据量和复杂性。运营数据(销售分类帐,订单簿,物流等)是唯一的优先事项,而其他数据通常会丢失或过时。
根本原因是缺乏对基于价值的数据收集的认识-了解需要解决哪些问题以及可以/应该收集哪些数据进行分析。为了解决这个问题,需要将观念转变,将数据视为战略资产而不是IT负债。
数据存储与处理
IT基础架构– IT就是它的本质
尽管大数据和云技术的发展日新月异,IT系统仍需要跟上不断增长的数据量,速度和种类。通常,需要多种不同的技术和工具(例如NoSQL数据库,Hadoop,Spark等)来管理不同利益相关者的期望-例如流数据,图形数据或非结构化数据。来自不同IT系统的数据集成和迁移是另一个挑战。很少有IT平台没有或没有内置的对数据迁移的支持,否则这些系统中的数据可能不会彼此同步。
为了解决这些问题,需要以数据基础架构的购置和升级,员工培训以及入职的形式进行更多的投资。重复数据删除,压缩和索引编制等技术可以显着改善数据库成本和性能。尽管数据体系结构应该足够复杂,可以满足将来在规模和敏捷性方面的需求,但它还应该与其他IT系统(尤其是ETL和分析平台)无缝运行。
公司无需内部开发功能,而是可以利用现有的云服务,例如AWS,Microsoft Azure等。下图显示了7 V的框架,在确定数据基础架构要求时通常会引用该框架。
数据挑战-IT基础架构
数据数字化–九云
虽然不可能对每项业务都实现100%的数字化,但可以通过采用自动化和光学字符识别(OCR)设备将通过物理表格,发票,收据和独立的excel表格收集的许多数据转换为可用形式。非结构化数据占生成的全部数据的80%,这一直是
深度学习最新进展的重点。
由于捕获和分析此数据的操作难题以及缺乏适当的用例,这些信息(以文本,图像,地理空间数据,区块链等形式)经常被忽略。
数据质量–垃圾回收,垃圾回收
It is highly likely that poor data quality is the key cause of the under-utilization of data. Findings based on incomplete
What makes this more problematic is the fact that such errors often go unnoticed
数据挑战-数据质量
Data Governance
Privacy and Integrity Concerns – Give that man a cookie!
With big data
The underlying assumption of data should be to serve consumers better and hence
To tackle concerns on data ethics
Security and Governance Risks – Store but secure
Data stored in servers often outlives its usage
This will ensure flushing out of junk data
Closing Comments
To make sure that the enterprise analytics engine is running smoothly
There is also a need to distinguish data for operations (for purposes of regulatory
About the Author
作者
Amit Kumar
Amit是一位数据科学和
人工智能专业人士,目前担任Nexdigm(SKP)的董事,该公司是一家全球业务咨询组织,为来自50多个国家的客户提供服务。他在各个行业拥有超过15年的经验,并从这两个角度进行了工作,担任内部职能专家(在Vodafone,Aviva Insurance,GE)和顾问。致力于数据科学的阿米特(Amit)一直致力于创建最佳,可行的解决方案,以帮助从数据中获得可衡量的业务价值。
题库