经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
计量经济学与统计论坛 五区
›
计量经济学与统计软件
[分享]谢邦昌:Data Mining的十种分析方法
楼主
ling0617
2546
7
收藏
2009-03-11
<p>&nbsp;</p><p>记忆基础推理法(Memory-Based Reasoning;MBR)</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 记忆基础推理法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据,有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 市场购物篮分析(Market Basket Analysis) </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 购物篮分析最主要的目的在于找出什么样的东西应该放在一起?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,找出相关的联想(association) </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 购物篮分析基本运作过程包含下列三点:</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (1)选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (2)经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (3)克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 购物篮分析技术可以应用在下列问题上: </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (1)针对信用卡购物,能够预测未来顾客可能购买什么。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (2)对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (3)保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (4)对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 决策树(Decision Trees) </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元树、三元树或混和的决策树型态。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 基因算法(Genetic Algorithm)</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 基因算法学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由一连串类似产生新细胞过程的运作,利用适合函数(fitness </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; function)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集(cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 群集侦测技术(Cluster Detection) </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 连结分析(Link Analysis)</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 连结分析是以数学中之图形理论(graph </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; theory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于企业的研究。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 在线分析处理(On-Line Analytic Processing;OLAP)</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 严格说起来,在线分析处理并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 类神经网络(Neural Networks) </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 类神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。 </p><p>&nbsp; &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;区别分析(Discriminant Analysis) </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric) </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 时,区别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体 — 区别分析 (Two-Group </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Discriminant Analysis);若由多个群体构成,则称之为多元区别分析(Multiple Discriminant </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; Analysis;MDA)。</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (1) 找出预测变量的线性组合,使组间变异相对于组内变异的比值为最大,而每一个线性组合与先前已经获得的线性组合均不相关。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (2) 检定各组的重心是否有差异。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (3) 找出哪些预测变量具有最大的区别能力。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; (4) 根据新受试者的预测变量数值,将该受试者指派到某一群体。 </p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 罗吉斯回归分析(Logistic Analysis)</p><p>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; 当区别分析中群体不符合常态分配假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开始减小,故机率值介于0与1之间。</p><p>&nbsp;</p><p>&nbsp;</p>
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
sqy
2009-3-11 00:18:00
这个姓谢的好像水平不怎么样,基本属于赵民德老先生说的“一张PPT走天下”一类。
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
藤椅
kangaroo01
2009-3-11 00:30:00
以下是引用
sqy
在2009-3-11 0:18:00的发言:
这个姓谢的好像水平不怎么样,基本属于赵民德老先生说的“一张PPT走天下”一类。
楼上说的真精典啊 呵呵
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
板凳
dyz
2009-3-11 10:10:00
台湾一所大学的老师
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
报纸
零想
2009-8-13 18:16:05
很经典哦,拷了,谢谢了啊~~~
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
地板
yanziwoaini
2012-5-3 07:52:51
这老师不粗,少胡说你们这些不懂的家伙
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
点击查看更多内容…
7楼
zhouhuachina
2014-12-14 23:04:06
tthank you!
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
8楼
king光
2014-12-14 23:06:12
看到头晕
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
Data Mining在信用卡客戶分群的应用
[下载]一本关于data mining的数据纠正的书
DATA MINING 习题答案
[推荐]Data mining数据集网站
web data mining(英文版)教程
奉献几本Data Mining的经典教材给大家
数据挖掘 data mining
数据采集频率&数据量&Data Mining&BA
data mining 课程资料
R语言原版新书 R Data Mining
栏目导航
计量经济学与统计软件
学道会
数据求助
统计软件培训班VIP答疑区
CFA、CVA、FRM等金融考证论坛
经管文库(原现金交易版)
热门文章
CDA 数据分析师:统计制图实战指南 —— 让 ...
视频媒体:AI漫剧爆发在即,重视产业链机遇
量子科技行业深度报告:量子革命:量子科技 ...
俄语–英语双语图解词典
这简单的几句话,完成了对传统和现代经济学 ...
2025年度国产AI芯片产业白皮书
2021 & 2022年全国农产品成本收益资料汇编 ...
2010-2024年《全国农产品成本收益资料汇编》 ...
法语–英语双语图解词典
德语–英语双语图解词典
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
10月重磅来袭|《打造Coze/Dify专属学术智能 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群