利用大数据的挑战
来自世界各地的组织正在收集,分析和评估来自各种来源的海量数据,目的是提高生产力和效率。大
数据分析可用于阻止信用卡欺诈,预测硬件故障以及重新路由互联网流量以避免拥塞。大数据技术可以改善网络运营,并且该数据还可以使您了解组织的“业务”运营。此外,它可以洞察用户行为并增加收入。许多使用大数据的公司都解释说,它通过深入了解客户的行为来增加收入。毫不奇怪,使用大数据也带来了一些挑战。
的主要目标 大数据 是为了提供 商业情报。这个目标提出了第一个挑战:寻找有用的信息。有用的信息被埋在整个网络的各种资源中。从海量数据中获取见解并不容易。初创企业社交网络分析的作者Maksim Tsvetovat 使用广播无线电波通信中的一个类比说:“噪声中必须有可辨别的信号”,您可以检测到,有时甚至没有。一旦我们完成了对数据的智能化处理,有时我们不得不回来说我们只是没有正确地测量或测量了错误的变量,因为在这里我们无法检测到任何东西。”
但是,如果有效利用, 大数据可以提供非常有用的业务见解。如果使用得当,它还可以用作“快速数据。” EMC联合会的重要首席执行官Paul Maritz在CapGemini报告:
“如果您能够获取所有相关数据,对其进行快速分析,浮现出切实可行的见解并将其带回到操作系统中,那么您可以影响仍在发展的事件。捕捉人们或事物在行动中并影响结果的能力可能非常重要,有价值和破坏性。”
人员配备问题
寻找熟练 数据科学家 和 大数据分析师是使用大数据的第二个挑战。该领域是新的,并且缺乏熟练的劳动力。这些技能需要统计经验和直觉的结合,这使人格特质充满了好奇。擅长统计和数学的人倾向于避免需要直觉的情况,反之亦然。
解决这种情况(如果有钱的话)的一种选择是通过重新培训现有员工和招聘专门从事大数据的新员工的组合,为公司建立数据分析师团队。较便宜的选择是雇用自由职业者的大数据承包商。对于自由承包商,应建立数据输入的标准协议,并以标准化方式输入信息,以防止长期和临时员工之间的混淆。
在决定改善IT基础架构之后,许多即将发生的问题都是可以预见的。使用大数据的转变应组织得井井有条,并且架构应妥善规划。组织在规划计算机系统的演进时应采取系统的方法。此外,公司应:
为员工安排研讨会,以准备使用大数据
注意成本并计划将来进行升级
识别数据不是100%准确并管理其质量
认真寻找有用的业务见解
永远不要忽视大数据的安全性
收集和存储数据
收集和积累大数据可能是一个挑战。大数据的研究来源通常通过政府机构,内部帐户,物联网,以及其他数据源。汇集所有这些需要周到的计划。
另外,需要确保数据的质量和准确性。这需要数据清理(通常是手动过程),以及对数据治理的审查。(数据是否准确?记录是否准确?错误是否随着时间的流逝而逐渐增加?)
数据湖用于存储已捕获为彼此无关的单独单元的所有数据。存储该数据是希望以后会有用(在某些情况下,这是法律要求的)。在这种状态下,由于缺乏NoSQL系统,因此无法对存储的数据进行操作和研究以获取见解,因为尚未对其进行集成。为了正确使用,应该集成数据孤岛中的数据,或者将数据移至NoSQL系统。
数据湖的使用也很笨拙,因为它们经常提供不准确的数据。根据由益百利数据质量,多达75%的受访企业认为自己的客户联系信息有误。充斥着不准确的客户信息的数据库可能比没有数据更糟糕。数据可以在输入时进行集成,但可能需要其他软件和硬件。
IT基础架构
实现大数据分析的承诺要求组织调整其业务方式。对于某些组织,可能会担心“剥夺和替换”其大多数IT基础架构(云服务提供商可能是替代方案)。越来越高的数据量,复杂的数据内容以及各种各样的数据类型的综合影响为企业带来了一些严重的问题。
尽管NoSQL系统(例如Hadoop)非常流行,但是有一些大数据软件可以与“少量”的大数据和 关系数据库管理系统(RDBMS)。关系数据库是旨在使用具有行和列的结构化格式保存数据的数据库。之所以称为“关系”,是因为存储在每个表中的值彼此关联或“关联”。
两种流行的程序是: 向导:统计和数据分析软件,专为Macs设计;和统计计算的R项目,它是免费的,并且可以在各种UNIX平台,MacOS和Windows上运行。
但是,缺乏伸缩性或无法伸缩可能会在处理大数据时出现严重问题。大数据最常见的功能是其令人印象深刻的增长能力。而这种能力是大数据面临的最重大挑战之一。这就是为什么NoSQL系统如此流行的原因。它们可以扩展以适合用于研究的存储数据量。问题不在于在服务器中安装新存储容量的实际过程。的SQL系统,但如果执行不当,系统的性能可能会下降。好的建筑设计可以使它避免成为问题。
好的体系结构设计还可以最大程度地减少以后可能出现的问题。大数据算法的设计在消除问题中也起着作用。并且设计应该允许将来轻松升级。这也是计划系统维护和安排系统性能审核的好时机,以帮助发现缺陷并快速解决它们。
云中的大数据问题
云计算本质上描述了一种通过Internet或服务器网络交付服务的计算类型。公共云计算的主要目的是为付费客户提供大量的计算能力。
云使用具有专用连接的服务器网络,这些专用连接旨在在服务器之间分配数据处理工作。公共云技术不是在每台计算机上安装专用软件,而是在用户作为基于Web的服务登录的“主机”计算机上安装软件程序。云托管了许多对用户有用的大数据程序。这可以显着转移工作量,并减轻在内部计算机系统上托管多个程序和应用程序的负担。
有一种叫做“管道问题在使用云时。这是基于持续存在的问题,即每天创建和保存的数据量越来越大。这会减慢处理速度并产生瓶颈。在不费尽周折的情况下,解决此问题的最简单方法是找到没有此问题的云,或在使用率较低的时候在云上工作。有更昂贵(更有效)的方式处理 云的管道问题。
技术难题可能会暂时关闭云。例如,在六月初,Google的Cloud瘫痪了,并带来了各种依赖Google软件的服务。(这很有趣,因为Google无法访问他们需要用来修复云的“向下”基于云的工具。他们不小心将自己锁定在没有钥匙的状态。)在这种情况下,最好拥有一些“其他”云可供使用。他们可能不是您的首选,但在紧急情况下会在那里。
安全在云中工作也很重要。云技术带有各种安全问题。云包含多种技术,其中可能包括数据库,网络,操作系统,资源分配,集装箱化,虚拟化,资源调度,事务管理,负载平衡等。所有这些都可能导致安全漏洞。例如,连接云中系统的网络可能具有后门,从而允许黑客访问。或者,容器可能已将恶意软件或病毒传递到云中。可以通过以下方式保护数据:
使用
数据挖掘技术可以 检测恶意软件 在云中。
敏感数据可以通过使用以下方式得到保护 密码学 和粒度访问控制技术。
可以针对最常见的网络攻击和/或数据泄漏场景开发各种威胁模型。

关注 CDA人工智能学院 ,回复“录播”获取更多人工智能精选直播视频!