全部版块 我的主页
论坛 数据科学与人工智能 大数据分析 Hadoop论坛
3960 1
2017-03-10

如何使用大数据进行分类?

关于如何使用大数据进行分类?或着说使用大数据类型对大数据特征进行分类。按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。对数据进行分类后,就可以将它与合适的大数据模式匹配:

1、分析类型 — 对数据执行实时分析还是批量分析。请仔细考虑分析类型的选择,因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他决策。一些用例可能需要混合使用两种类型:

2、欺诈检测;分析必须实时或近实时地完成。

3、针对战略性业务决策的趋势分析;分析可采用批量模式。

4、处理方法 — 要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可结合使用各种技术。处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。

5、数据频率和大小 — 预计有多少数据和数据到达的频率多高。知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源:

按需分析,与社交媒体数据一样

实时、持续提供(天气数据、交易数据)

时序(基于时间的数据)

6、数据类型 — 要处理数据类型 — 交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。

7、内容格式(传入数据的格式)结构化(例如 RDMBS)、非结构化(例如音频、视频和图像)或半结构化。格式确定了需要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。

8、数据源 — 数据的来源(生成数据的地方),比如 Web 和社交媒体、机器生成、人类生成等。识别所有数据源有助于从业务角度识别数据范围。该图显示了使用最广泛的数据源。

9、数据使用者 — 处理的数据的所有可能使用者的列表:

业务流程

业务用户

企业应用程序

各种业务角色中的各个人员

部分处理流程

其他数据存储库或企业应用程序

10、硬件 — 将在其上实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。理解硬件的限制,有助于指导大数据解决方案的选择。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-3-10 18:21:47
感谢楼主分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群