全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
25347 73
2015-10-14

       大数据咱听的够多了,百度一下,就“为您找到相关结果约7,150,000个”,可它到底是个什么东西,解读甚多,眼花缭乱的没个准。本文整理修改自知乎的一个问答,作者是大数据解决方案公司一面数据的创始人何明科,他尝试用大白话解释了数据沉淀、挖掘、呈现三个概念,从中我们也能看到整个行业的大致状况。


对于国内数据分析市场,我们感觉如下:

  市场巨大,许多企业(无论是互联网的新锐还是传统的企业)都在讨论这个,也有实际的需求并愿意为此付钱,但是比较零碎尚不系统化。目前对数据需求最强烈的行业依此是:金融机构(从基金到银行到保险公司到P2P公司),以广告投放及电商为代表的互联网企业等。

  尚没出现平台级公司的模式(这或许往往是大市场或者大机会出现之前的混沌期)。

  To B服务的氛围在国内尚没完全形成,对于一些有能力的技术公司,如果数据需求强烈的话,考虑到自身能力的健全以及数据安全性,往往不会外包或者采用外部模块,而倾向于自建这块业务。

  未来BAT及京东、58和滴滴打车等企业,凭借其自身产生的海量数据,必然是数据领域的大玩家。但是整个行业很大而且需求旺盛,即使没有留给创业公司出现平台级巨型企业的机会,也将留出各种各样的细分市场机会让大家可以获得自己的领地。


  对于数据业务,按照我们的理解,简单将其分为三块:数据沉淀、挖掘和可视化,每一块分别对应不同的模式及产品或服务。(数据挖掘业务又被细分为分析、理解及存储。)下面会进行简单介绍,其实从我们的业务也可以看到一些整个行业的大致状况。


数据沉淀

  用大白话说就是数据抓取。目前有四大方式获取数据:

  网络爬虫,用Python及Go等开发自己的爬虫平台,对几十个网站进行每日抓取获得相关信息。

  Wi-Fi接入方案,比如我们自己就开发了一套完整的软硬件方案,优势是高ROI(投资回报比),且免费提供给物业管理者,帮助其实现靠网费赚钱以及推广费赚钱。在与其协商的基础上,获得用户数据。这主要是OpenWRT的开发以及一些智能硬件和客户端的开发。

  提供一些图像方面的API,进行图片搜索及人脸搜索,满足客户在图像处理和图像识别方面的一些需求,同时获取相关的图像数据。涉及到一些Machine Learning和Deep Learning的算法,使用C++/Open CV/Matlab等工具或模块。

  数据服务需求方自行提供。

  这部分是按照数据销售的方式向客户收费。


数据挖掘

  用大白话说,就是利用数据分析产生深层次有价值的理解。

  基于以上各种方式获得的数据,我们可以做最简单的统计分析、用户及品牌理解、用户画像、各品牌或各产品型号之间的关系等等,了解现在和历史并争取预测未来。


       常用的工具是Python/R/SPSS等,算法包括最简单的统计、稍微复杂一些的Machine Learning、现在被捧上天的Deep Learning以及Collaborative Filtering等等,也需要使用到Hive等大数据处理平台。


这部分类似于咨询服务,向有需求的客户按照项目收费。


数据呈现

  用大白话说,就是把分析结果用最美观和最容易理解的方式(图标或者图形)展现出来。


数据挖掘方向的学习主要以案例为主,既掌握了理论知识,也可以迅速了解如何应用:

R语言2016年数据挖掘现场班
通过案例掌握R语言数据挖掘
时间
2016年3月25-28日 (四天)
地点:
北京市海淀区首都体育学院
安排:上午9:00-12:00;下午1:30-4:30;答疑4:30-5:00
费用4500元 / 3600元 (凭学生证优惠价)
优惠:现场班老学员9折优惠;
          同一单位3人以上同时报名9折优惠;
          同一单位6人以上同时报名8折优惠;
          折扣优惠不叠加。
详情请参照回复   
我要报名

报名流程:
1:点击“我要报名”,网上填写信息提交,注明城市;
2:给予反馈,确认报名信息;
3:网上缴费:http://baoming.pinggu.org/paycenter.aspx
4:开课前一周发送课程电子版讲义,软件准备及交通住宿指南。

联系方式:

魏老师
QQ:1143703950 点击这里给我发消息
Mail:vip@pinggu.org
Tel: 010-68478566

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-10-14 08:06:29
大数据时代的精准数据挖掘——使用R语言

课程简介:

      本课程结合讲师的学习和工作经验,把R语言和数据挖掘的基本知识和重点难点很好的结合,注重学以致用,按照由深入浅的方式,层层推进使得学员拾阶而上的逐级掌握相关内容。

      课程内容涵盖了R语言和数据挖掘的精华,从大纲来看,无论是流行的数据挖掘方法,还是前沿的算法均有所涉及,课程中提供了大量丰富的案例,这些案例,集合了互联网、市场营销、金融保险等领域的数据挖掘实例,无疑对学习和工作有极大的参考和指导意义。


课程特色:

      1. 本课程尽量避开数学公式,按照“讲清思想方法原理—结合具体案例—R语言实现细节”思路,让即使是几乎没有什么基础的学员,掌握R语言数据挖掘的基本思路和模式,打下未来深入的良好基础,能在工作和学习中结合具体问题立马上手操作解决;

      2. 课程注重学练结合的方法,会采取小组讨论的方法,充分调动大家思考的积极性,在做中掌握相关知识和技能;

      3. 课程紧紧抓住R语言和数据挖掘的重点和难点,详细的分析和讲解,在理解难、容易出错的地方反复提醒,以便学员在课后容易的进行自己复习和相关拓展。


目标人群:

     对使用R语言进行数据挖掘感兴趣者,尤其是希望获得R语言和数据挖掘基础和思想,想在实际中快速使用R语言进行数据挖掘以解决问题的在校学生、在职工作者。


教学大纲:

讲:R语言精要

本着循序渐进而又覆盖R语言重要而有用的基本内容原则,本讲从R语言入门开始,以前期的数据处理为核心,以实际案例为载体,内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题,详细介绍强大的数据清洗整理plyr、zoo、car等常用包和强大的作图ggplot2包,为使用R语言进行数据挖掘打下扎实的工具基础。

主要案例:

案例1:如何用R语言plyr等包合并、排序、分析数据并编制香农-威纳指数;

案例2:如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出;

案例3:如何使用R语言进行分层或者整群抽样构建训练集与测试集;

案例4:使用ggplot2画出各种复杂的图形。


第二讲:Logistic回归与商业大数据建模

Logistic回归是商业建模的常用重要数据挖掘方法,本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释,让学员彻底地掌握Logistic回归解决问题的R语言方法。

主要案例:

案例1:利用Logistic回归帮助商业银行完成对客户提前还贷款情况的预测;

案例2:利用Logistic回归帮助医生对病人选择治疗方案;

案例3:利用Logistic回归帮助厂家分析顾客做出购买决策的重要因素;

案例4:利用Logistic回归帮助寿险公司进行目标客户精准电话营销;

案例5:利用Logistic回归帮助商业银行完成对客户的信用评分;

案例6:利用Logistic回归帮助公司分析客户流失的原因并做好预测。


第三讲:关联规则和R语言实现

关联规则(著名的“啤酒和尿布”)是数据挖掘的基础和核心技术之一,本讲将着重围绕经典的Apriori算法和eclat算法,阐明关联规则的支持、置信和提升程度与控制,使用R语言快速完成关联规则分析。

主要案例:

案例1:使用R语言关联规则方法帮助各个超市实现商品的捆绑销售方案(即“购物篮”分析);

案例2:泰坦尼克号乘客幸存的关联规则分析;

案例3:提高个人收入的关联分析。


第四讲:决策树(回归树)分析和R语言实现

决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法:CART和C4.5算法,使用rpart和J48函数进行R语言分析。

主要案例:

案例1:对汽车耗油量进行决策树分析并完成相关目标变量的预测;

案例2:使用决策树帮助电信局判断和预测客户办理宽带业务。


第五讲:机器集成学习的Bagging和AdaBoost算法

这两种方法将许多分类器的预测结果进行汇总分析,从而达到显著提升分类效果。本讲介绍这2种算法的思想,在R语言中构造训练集和测试集进一步进行分析。

主要案例:

案例1:用R语言的Bagging和AdaBoost进行商业银行定期存款的分析和预测;

案例2:用R语言的Bagging和AdaBoost识别有毒蘑菇。


第六讲:R语言随机森林(RandomForest)算法

在机器学习中,随机森林是一个包含多个决策树的分类器,本讲讲清随机森林方法的原理,以致在实际中帮助学员判断适合进行随机森林分析的情况,最终熟练掌握R语言随机森林分析的方法。

主要案例:

案例1:对皮肤病进行随机森林的分类和预测;

案例2:对酒的品质和种类进行分类和评价。


第七讲:支持向量机和R语言的实现

本讲将分析支持向量机的结构风险最小原理、间隔和核函数,从而帮助学员深刻理解支持向量机的思想和算法,以及使用中注意的问题,从而帮助学员灵活地应用于各个领域。

主要案例:

案例1:对著名的鸢尾花数据进行支持向量机的分析;

案例2:使用支持向量机识别有毒蘑菇;

案例3:使用支持向量机进行股票指数预测。


第八讲:神经网络和R语言的实现

神经网络由大量的节点和输出函数构成逻辑策略,本讲介绍其原理,主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。

主要案例:

案例1:酒的品质和种类的神经网络的分析和预测;

案例2:公司财务预警建模。


第九讲:交叉验证比较各个模型

对于同一个数据,可能有很多模型来拟合,如何衡量和比较模型的精度呢?本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取模型进行拟合和预测。


第十讲:使用R语言结合KNN算法进行文本挖掘

文本挖掘,特别是对中文的文本挖掘日趋重要。本讲介绍文本挖掘的原理和方法,帮助大家使用R语言在大量的非结构化的数据中发现有价值的信息,抽取潜在有用的数据,发现适合模式,实现可视化结果展示。

主要案例:

案例:使用R语言结合KNN算法对网页(Web)进行文本挖掘(含分词、分类、可视化等)


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-14 08:06:30
SAS金融应用 10月22-25日广州开班

课程目标:

不仅仅是搭建数据挖掘平台,更重要是让培训对象在理解数据所包含的业务含义的基础上进行分析工作。通过这种方法使帮助学员切实的解决了很多工作中的实际问题,提升了从数据角度去思考的能力。


课程特色:

1. 注重SAS的基础操作和数据的特征相结合,注重数据分析的理论和业务的实际理解相结合,帮助学员在短时间内掌握金融业数据分析业务最核心的解决方案和思路;

2. 使用工作中实际遇到的问题作为案例分析讲解,让学员在工作中对数据分析很快上手,提升业务的数据分析实际能力。


课程适用人群:

1.零基础学员,想涉足金融数据分析领域者;

2.在公司从事数据分析工作者,想系统地进行学习或者提高数据分析的高度和技能。


课程大纲:

SAS基础的内容包含:

1.SAS的data步:

包含不限于文件操作语句、运行语句、赋值和累加语句、控制语句、信息语句等等;


2.SAS的proc步:

包括不限于Format、Means、Transpose、Univariate、Plot、SQL编程技术、ODS和Array等等;


3.SAS的常用函数:

数学函数、截取函数、字符函数、概率统计函数、随机数函数、日期函数等;


4.宏变量及宏过程编程技术;


5.SAS的统计分析:

t检验、方差分析、回归分析(含logistic等)、列联表分析、多元统计分析(主成份分析、因子分析、聚类分析、对应分析、判别分析、联合分析等);


6.SAS的时间序列分析(ARIMA模型等)。


SAS金融业实际应用案例分析包含:

1.银行的SAS平台的设计架构;

2.信用卡数据在系统间的流动及银行对客户的信用及风险分析的模型及实现方法;

3.借贷业务数据在系统间的流动和借贷数据的分析方法;

4.理解银行系统数据的获取,编写数据处理引擎(利用SAS MACRO等);

5.数据质量检查和实现方法案例;

6.信用风险评分卡案例;

7.银行在巴塞尔条约中的SAS应用案例;

8.如何挖掘潜在客户及开展精准营销;

9.欺诈发现,银行如何发现客户洗钱欺诈的案例。


我要报名

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-14 08:11:26
thanks
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-14 08:33:33
当下最热门的两门课 支持
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-10-14 08:34:18
支持LZ
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群