全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
3422 10
2014-08-18

       干这行也有几个年头了,一直想写点东西跟大家分享讨论(无奈自己太懒╯□╰),恰好前几天回答了一位坛友的问题,索性把东西拿来另开一帖。希望能给想入这行的朋友一点帮助,也希望资深人士来拍砖。
      曾几何时,我认为数据挖掘是比数据分析高端的,可是干这行干到现在,我觉得两个其实是一码事,没有必要分的那么清楚。可能行业内的标准,数据分析侧重于数据库,SQL,报表之类的,数据挖掘更多的倚重统计学、机器学习算法之类的。但是你要是觉得自己多学了点算法,或者精通了“数据挖掘几大经典算法”就别无他求,那我建议倒不如啥也不会,先去行业内敲敲SQL,学习一下分析的思维。分析的思维,你的想法,我认为这才是分析行业最有价值的东西。分析挖掘它首先是业务为导向的,我想每个行业的业务规则也够我们学习一年半载了,在熟悉业务规则的基础上,去分析,去建模等等,这才是真正有意义的,否则单纯玩数学、数字,不做也罢。

      当然,我并不是说算法无用,大牛们搞出的这些东西,都是经过严格的推理证明,解决了很多既定的场景,诸如“分类、聚类、预测等等”。我更愿意把这些东西当成一个工具,可能是稍微NB一点工具,当有些问题确实能够转化成这些模型的时候,这无疑是很好的选择,此时就需要你要了解这些算法,毕竟你要能够解释你做出来的东西,盲目拿个软件瞎点点,确实是件可怕的事情。

      在分析上,我的建议是“怎么简单怎么来”,能用一个均值解释清楚,就别用乱七八糟的东西了,挖坑再填坑的事情还是少干,也要有点业界良心。不过如果领导强逼着挖坑填坑,另当别论。切忌为了模型用模型,可能很多人都会经历这段,因为总会有某个时段会对模型算法什么的痴迷,记着改就好,分析手段无所谓高端不高端,达到想要的目的就好。

       PS:很多人觉得数据挖掘算法有点高端、神奇,其实我从未觉得那些算法神奇,看着推导过程,一步步就下来了,我只是觉得设计算法的人神奇,他是怎么想到的。自然自己写算法也是另外一个境界了,没啥资本多说。

      最后说说大数据分析,区别就是“大”了,其实目前国内除了那几家公司,其他的多多少少都有点扯淡的,搞得起几千台集群,付得起那电费的公司估计不多。存储侧的东西不是太懂,说说分析侧,由于数据量的提升,你不得不考虑机器、算法的内存,效率。一些传统的分析方法也会失效,可能你需要考虑并行,一些底层语言等等来规避内存和时间的问题。总而言之,数据越大,带来的麻烦也越多,需要兼顾的东西也越多。理念就是这样,但说着容易,其实不易。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-9-3 14:21:16
赞一个,顶卤煮
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-6 16:58:19
前辈,首先再次感谢一下你对我的指点。非常赞同你的一个观点,一定要先懂行业,懂业务需求。这是最重要的基础。
同时希望你能推荐一下数据分析与挖掘方面入门级的书或者资料。祝工作顺利!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-6 19:28:20
run_psw 发表于 2014-11-6 16:58
前辈,首先再次感谢一下你对我的指点。非常赞同你的一个观点,一定要先懂行业,懂业务需求。这是最重要的基 ...
撇开概率统计方面的书,spss clementine数据挖掘宝典  这本书挺不错的,应该是电子工业出版社的。当然我不是说这个软件好,这本书前面的知识讲的比较全面比较细。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-6 20:24:24
Thanks.....
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-11-11 17:45:24
还可以
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群