经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
人工智能
›
机器学习
【经典】机器学习可视化演示
楼主
Studio-R
1856
2
收藏
2016-11-04
机器学习
应用统计学习技术,自动识别数据集内的模式。这些技术可以用来作出准确性很高的预测。决策树是机器学习作预测的常见方法之一,本文以一个房屋资料数据集为示例,用可视化图阐释了如何建一个能够区分房屋地理位置的决策树模型。
机器学习
中,计算机常应用统计学习技术自动识别数据集内的模式。这些技术可以用来作出高度准确的预测。本文以一个房屋资料的数据集为示例,图解如何建一个能够区分纽约市和旧金山的房子的机器学习模型。
一些直观特征
假设我们需要凭数据预测一栋房屋是位于旧金山还是纽约市,应该怎样做呢?在机器学习学科里,这是一种
分类任务
。
上图表示两地房屋的海拔数据,你可能会认为海拔240英尺以上的房子看来应该是位于旧金山的。这是我们凭直觉所能作出的初步预测。
增加维度
增加一个
维度
能让我们发现更多差别特征。例如,纽约市的房子每平方英尺价格显然要比旧金山的贵得多。
所以加上每平方英尺价格这个维度后,我们的图变成了散点图,从散点图可以看到,海拔较低的房屋中,单价相对高的房子应该是纽约市的。
从这些数据中我们可以作出这样的预测:在海拔低于或等于240英尺的房子中,如果每平方英尺价格高于1776美元,那么这栋房子应该位于纽约市。
机器学习中
,数据集内的维度又称
特征
,
预测器
或
变数
。
划分边界
我们可以把海拔(>242ft)和每平方英尺单价(>$1776)作为分界线上面的散点图上画出来。图上绿色的部分(海拔>242ft)可以归类为旧金山的房子,蓝色的部分(平方英尺单价>$1776,海拔≤242ft)归类为纽约的房子。
这种利用数据找出合理的分界线的方法是统计学习的基础。
但是,左下角哪些海拔低,单价也低的房子该怎么分类呢?我们需要更多的特征数据。
我们用来建机器学习模型的房屋数据集里有七个维度。在机器学习中,建模的过程又称
训练模型
。
如图,我们把每两个维度的关系都制成散点图,从图中可以看出数据的规律,但分界线不明显。
机器学习
在数据中寻找模式是机器学习的特长。机器学习方法可以使用统计学习找出最佳分界线。
接下来我们将介绍一种叫
决策树
的机器学习方法。决策树会逐一分析数据集里的维度,是一种合理可行的机器学习方法。
寻找更好的分界特征
让我们回顾最初的海拔数据图,想想怎样找到更好的分界特征。显然,换个角度,把原来的海拔图变为
矩形图
可以更直观地看出数据里的规律,例如每个海拔上房子的数量趋势。
从矩形图中可以看出,纽约市海拔最高的房子大约是240英尺,但大多数房子都位于海拔较低的地方。
第一个分支
决策树使用
“如果-则”语句
来定义数据中的规律。例如,如果一栋房子的海拔高于某个数据,则该房子位于旧金山。
在机器学习中,这些条件被称为
分支
。分支根据某些维度值把数据分成两个
支路
,这个值被称为
分割点
。在这个分割点左边的数据被归入一类,右边的被归入另一类。分割点即是决策树的分界。
权衡
选择分割点时需要权衡。我们最初选择的分割点(海拔240ft)就把很多旧金山的房子错误划分为纽约市的了。
上面的饼状图里绿色的部分就是错误划分到旧金山的房子,这些分错的样本叫做
假负类
。
但是,如果一个分割点把所有的旧金山的房子都正确划分,那它就会同时错误地把许多纽约市的房子也包括进来,这类错误叫做
假正类
。
最佳分割点
最佳的分割点应该使每个分支的分类结果尽可能
均质
。统计学中有几种方法可以用来计算最佳分割点。
如上图所示,一个特征的最佳分割点还不能完全正确地把旧金山和纽约的房子区分开来。
递归
为了增加另一个分割点,算法在第一个分支后的子数据集中重复上述过程。机器学习中,这种重复叫做
递归
,是训练模型时常用的方法。
新分支的最佳分割点取决于各边的数据。例如,在左边海拔较低的分支,最佳分割维度是每平方英尺价格,分割点在$1061 per sqft,在右边海拔较高的分支,最佳分割维度是房价,分割点在$514500。
栽培决策树
增加分支意味着增加新信息,从而提高决策树的
预测准确性
。在本例中,增加一层决策树的准确性提高到84%。再加几层,准确性达到96%
我们甚至可以继续增加分支,直到决策树的准确度达到100%。这样,决策树末梢的所有分类结果都纯粹地属于旧金山或纽约。
决策树的这些末梢又叫
叶节点
。决策树模型对每个叶节点里的数据(房子)的分类取决于其中的多数派。
作出预测
训练好的决策树模型通过把数据集里的每一栋房子(图示的点/数据)从根部顺着分支走到叶节点进行分类,叶节点属于哪一类,这个数据就属于哪一类。每条路径都有决定预测分类的规则(if-then语句)。
这些数据叫做
训练数据
,因为它们是用来训练模型的。由于我们这个决策树是用这些训练数据训练出来的,所以这个决策树分类训练数据的准确率当然是100%。
用真实数据测试
用真实数据测试是指用决策树未见过的数据来做分类任务,这类数据叫做
测试数据
。
理想情况下,决策树对测试数据的分类的准确性应该和训练数据的结果差距不大。在这个例子中,我们的模型得到了89.7%的正确率,如此看来这个决策树做得不算很好。
这些错误是由于
过拟合
。我们的决策树把训练数据的每个差别特征都看作是同等重要的分界条件,但其中有些特征是不相关的。过拟合是机器学习的一个基本概念,我们会在以后的文章中更详细讨论。
扼要重述
机器学习
使用统计学习方法识别模式,从数据集中挖掘分界条件,从而作出预测。
决策树是机器学习作预测的方法之一,决策树使用if-then语句进行分界并在数据中找出模式。
当作分界的差别特征关系不大时,容易发生过拟合。可以用测试数据来检查模型的过拟合程度。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
yzharold
2016-11-11 23:03:46
nice presentation
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
Studio-R
2016-11-14 10:19:05
yzharold 发表于 2016-11-11 23:03
nice presentation
Thank you,that's very kind of you!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
统计学习(机器学习)入门级
机器学习 & 统计学习
统计机器学习研究
小样本机器学习理论:统计学习理论
【分享】仅需拖曳无须编程的云端可视化机器学习/深度学习量化平台
核方法与机器学习
【学习笔记】今日学习机器学习模型局部可视化方法之一,LIME值的计算
【学习笔记】统计学习的重点在于归因,机器学习的重点在于预测
【学习笔记】统计学习→机器学习 数据分析流
可解释的机器学习
栏目导航
机器学习
休闲灌水
计量经济学与统计软件
EViews专版
行业分析报告
世界经济与国际贸易
热门文章
【全美经典】离散数学
understanding climate change perceptions ...
中国数字经济规模数据、报告(2005-2023年) ...
【同程商旅】中国企业出海差旅研究报告
“十四五”能源发展成就报告
2000离散数学习题精解
智算无界AIDC的超越和重构2025
当社科基础理论重大理论发现的时候
【24重磅,自用整理!】2000-2024上市公司投资 ...
2025年我国医药航空冷链发展现状与趋势展望 ...
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
10月重磅来袭|《打造Coze/Dify专属学术智能 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群