全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
715 0
2020-10-30
业务问题和数据科学解决方案第1部分
数据科学的重要原理是数据挖掘是一个过程。 它包括信息技术的应用,例如从数据中自动发现和评估模式。它还包括分析师的创造力,业务知识和常识。了解整个过程有助于构建数据挖掘项目。
由于数据挖掘过程将从数据中查找模式的整体任务分解为一组定义明确的子任务,因此对于组织有关数据科学的讨论也很有用。
从业务问题到数据挖掘任务
每个数据驱动的业务决策问题都是唯一的。有一些常见的任务是业务问题的基础。数据科学家将业务问题分解为子任务。然后可以构成子任务的解决方案以解决总体问题。这些子任务中的一些是特定业务问题所独有的,而其他子任务是常见的数据挖掘任务。
尽管有大量特定的数据挖掘算法,但它们只能解决几种根本不同类型的任务。显而易见,从分类和回归开始说明基本概念。
1.分类和类别概率估计尝试预测实体所属。
2.回归尝试估计或预测数值。
3.相似性匹配 尝试 根据已知数据识别 实体
4. 聚类 尝试按 实体的相似性对其进行分组 。
5. 共现分组 尝试 根据交易查找实体之间的关联 。
6. 分析 试图表征实体的典型行为。
7. 链接预测 尝试预测数据项之间的连接。
8. 数据精简 尝试用较小的数据集替换大量数据。
9. 因果模型 试图说明哪些事件或动作会 影响 其他事件或动作。
有监督与无监督方法
受监督 和 不受监督 的术语是从机器学习领域继承的。
隐喻地,老师通过仔细地提供目标信息以及一系列示例来“监督”学习者。无人监督的学习任务可能涉及相同的示例集,但不包括目标信息。
如果可以提供特定的目标,则该问题可以表述为受监督的目标。监督技术被赋予了特定的分组目的,可以预测目标。聚类是一项不受监督的任务,它会基于相似性进行分组,但是不能保证这些相似性将是有用的。
分类,回归和因果模型通常使用监督方法解决。
监督学习是您拥有输入变量(x)和输出变量(Y),并使用算法学习从输入到输出的映射函数的地方。
Y = f(X)
目标是很好地近似映射函数,以便在拥有新的输入数据(x)时可以预测该数据的输出变量(Y)。
分类和回归通过目标类型来区分。回归涉及数字目标,而分类涉及分类目标。
聚类,共现分组和配置文件通常不受监督。
在无监督学习中,您只有输入数据(X),而没有相应的输出变量。
无监督学习的目标是为数据中的基础结构或分布建模,以便更多地了解数据。
对于业务应用程序,我们经常需要一个数值预测。例如,客户将继续订阅他的杂志
在数据挖掘过程的早期阶段,是要确定攻击线是受监管还是不受监管,如果受监管,则可以生成目标变量的精确定义。此变量必须是特定数量,它将是数据挖掘的重点。
1
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群