全部版块 我的主页
论坛 金融投资论坛 六区 金融学(理论版) 量化投资
9268 19
2014-12-19
  各位论坛的亲们,最近有个项目大体是要用文本挖掘技术来选股,本人本科研究生都是金融数学的,文本挖掘只是略有接触,不知道有没有人可以指导一下用什么软件的问题。
  目前纠结在这里,我对MATLAB用的比较熟悉,用matlab抓取一个网页什么的都没啥问题,用简单的正则表达式提取数据,如新浪财经的数据,这种都没问题,但是,我知道文本挖掘大部分人用的都是python,还有用R的,我从网上不太好找这些的比较,最多说的也就是速度问题,但是,我想问,究竟这个速度间隔多少,因为我要做的选股模型是一周甚至更久的,所以如果不是说要一两天才算的完我就没什么问题,我主要担心是不是matlab实现上会遇到很多问题,如果这样我就开始学一下python。。希望有大神能帮我做一个比较,,诚谢。

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-12-19 14:32:47
matlab r python 都差不多。

效率方面哪个软件你用精了、用通了。都不会差太多。

我有朋友

一个用matlab做文本挖掘 数据库用的是MySQL,构建 舆情策略

还有用python做得文本挖掘数据库用的是MS SQL,构建 舆情策略

条条大陆通罗马。

担心 matlab的速度啥的,我就懒得吐槽了。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-19 14:38:53
舆情这块 核心是 自己团队的那张 正负面 语义库(表)的建立

数据这块挖来挖去,就那几个网站 新浪微博、微信、股吧、和讯 、雪球等。

除非你们公司 和 百度 、新浪 或者其他 互联网巨头 等有 深入合作(像广发基金、南方基金那样),能拿到 比其他人更多 、更全面的数据,否则大家能挖到的数据差不多。 差别就在分词的处理(分词也都有现成的包) 和 那张 正负面 语义库(表)【这张表每个团队都有自己的,不会share,是核心】。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-19 15:15:22
faruto 发表于 2014-12-19 14:38
舆情这块 核心是 自己团队的那张 正负面 语义库(表)的建立

数据这块挖来挖去,就那几个网站 新浪微博、 ...
恩,有道理,我先用matlab尝试一下,估计是我掌握的还不是太精,这一块接触太少了。。楼上就是传说中叫做李洋的大神吗??真是万分感谢
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-19 16:34:03
BestWorst_Tian 发表于 2014-12-19 15:15
恩,有道理,我先用matlab尝试一下,估计是我掌握的还不是太精,这一块接触太少了。。楼上就是传说中叫做 ...
正是大神
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-12-19 16:34:46
我本科和研究生都是金融工程,兄长应该在实习吧
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群