全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1560 3
2016-12-01
问:本科阶段只学过C语言,外加一些线性代数,概率论的知识。现在硕士阶段进行数据挖掘、自然语言处理的学习中感觉到力不从心。不知道从何去入手,有一堆书也不知道先后顺序或者如何搭配。数据结构与算法、离散数学、数据库等内容也不清楚。总而言之就是相当之困惑,感觉前景一片黑暗,希望能有人帮我解下惑,不胜感激!!

答:首先,你有一定的C基础,那基本的数据结构和语法应该问题不大,数据库就是一个应用型的东西,难度也不大。这是需要掌握。
其次,python r sas java甚至matlab必须掌握一门,具体哪一门要看你的导师以及师兄之前的代码积累是哪一门。当年我甚至是C#加oracle做的。
然后制定文献阅读及算法实现计划,以研究生的水平,2周1篇甚至1周1篇kdd相关研究方向的论文。一开始看会非常慢,看习惯之后就好了。最好读之前先读相关方向的综述论文。我们是一星期一个文献阅读分享会,有很多论文自己没有读但是同门一分享就了解了很多。lda,lasso,hmm,gmm还有概率图等都是其他人读了分享的,分享会这个东西挺好的。
制定3个月实现其中一篇论文算法的计划,一年可以积累3-4个算法进行实验对比。数据的话使用kaggle的数据。
同时,精通几大基础算法的推导。当时我们老师让我们学的是EM算法,最大熵,SVM还有一些如牛顿法等的简单凸优化算法。最后考试还要吧推导写一遍,比较崩溃。
研究生2年搞定以上肯定没有问题,然后研二下应该就可以发论文写毕业论文了,研三随意毕业没有问题。

首先入门:看《数学之美》吧,作为一个非科班出身的强烈推荐的入门读物,没有其二只有其一,看了它你就知道你要做什么了。
关于工具:python或者matlab,在我们那个时代,实验室流行的还是后者,不过我强烈推荐前者,目前老外写的使用python的机器学习和数据挖掘或自然语言处理的书籍当当上还是能找到不少,也是近几年发展起来的,我们那时候都还没有,现在你们可幸福了。(目前这类实践也有专门的网站可以学习,有了它操练起来吧,然后一句句实验例子和结果,最后组合自己想法这样)
关于专业书:三大块:机器学习类(方法),概率统计类(理论基础),数据挖掘类(实践)。这个在百度或谷歌搜下“十大推荐书籍”,基本上都有了,然后图书馆借咯,书不在多,在于细细品味。
最后切勿一口一个胖子。


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-12-1 21:57:40
谢谢分享,确实有不少同学也有类似的疑惑,对于数据挖掘入门的解答非常好。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-12-2 17:42:32
数学推导对我来说是一大难关,本科数学没学好。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2022-8-27 22:57:29
很用心的整理
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群