全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
14601 56
2014-07-26
作为一名已经从事数据分析的工作人员,想和大家分享自己在工作中如何用R进行实战操作。R软件是非常有魅力的数据分析或挖掘工具,优点一箩筐:免费、灵巧、分析方法丰富、可视化等方面,相信很多前辈都已经罗列清楚。但是还有很多人向我咨询,企业中是否也用R?企业中如何用R?
    据我这么多年的观察,越来越多的企业开始关注并使用R,相关招聘信息都会列“熟练使用SAS\R软件”等字样。所以,想学习R、正在学习R的各位同学千万不要被某些看法观点而蒙蔽,其实任何工具都有它的优势与劣势,好不避讳,R的劣势“可能”就是它的处理速度、内存限制等。
    对的,我用了“可能”。其实,这些困难都是可以缓解甚至避免。现在越来越多的contributors贡献了非常好用的packages,比如M Dowle等的data.table包、Danile Adler的ff、Edwin de Jonge的ffbase包,当然还有Hadley的dplyr、reshape2、ggvis包,还有Rcpp、bigmemory等等,企业中AsterR,Revolution等大数据支持,当然更要感谢飞天团队的RODPS大作。太多优秀的包可供使用,对于数据收集、整理、分析、展示等表现都非常优秀,所以在日常工作中基本上解决了我几乎所有问题,可能有人要问我,你平时面临的数据体量级是多少? “TB级”
    广告说了这么多,分享一些资源(都说版主很有钱,那小版也免费分享),我是一位R语言爱好者,以上是个人的一些想法,各位有不同看法或者观点,可以直接跟帖讨论!!
    PS:针对部分坛友提到的即将上线的《Dealing With Memory Limits and Working With Large Data Sets in R》,以及《Advanced R》、《Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining by Simon Munzert》以后也会及时更新,敬请期待。

附件列表

ParallelO.pdf

大小:206.74 KB

 马上下载

DataMiningL.pdf

大小:711.25 KB

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-7-26 21:01:53
谢谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-7-27 12:40:40
谢谢分享!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-7-27 12:57:26
大数据实战利器,谢谢楼主资源共享!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-7-27 13:00:00
R的分析功能和扩展性确实很强大,可惜由于它的处理速度、内存限制等劣势,很难作为大数据实战工具。业界一般都倾向于采用SAS,他们追求的是高效和专业。在大数据领域,目前SAS+Hadoop是最强组合。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-7-27 13:09:03
不过在我眼里,SAS更像一个分析软件,而非编程软件,用其编写算法很不方便;而R则是一个典型的统计编程软件,所以做方法论、算法研究的那些同事更倾向于用R,因为R更自由灵活。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群