互联网大数据与互联网金融时代
最近几年来,随着互联网大数据以及互联网金融时代的发展,人们获取信息的渠道越来越丰富多样。伴随着行为金融的发展,人们越来越关注非结构化的金融“数据”给投资决策带来的影响。在非结构化的信息中,热门财经网站的财经信息是其中的一部分。热门财经网站发布的财经新闻往往能够对个股的股价产生影响,然而由于财经新闻往往为文本类信息,导致我们很少能够对此类财经信息所带来的投资机会进行量化,并运用于实际的投资实践中。本专题报告的目的为通过对热门财经网站的财经荐股栏目的文本信息进行挖掘,将文本类信息转换为能够进行实际操作的类“数据”信息,通过该信息建立量化策略,试图探讨文本类信息带来的投资价值。
财经小编事件选股策略构建
基于文本挖掘技术,我们将大量的热门财经网站相关的荐股栏目的信息转换为类“数据”信息,然后基于这些类“数据”信息构建策略,我们主要考虑一下几个方面的信息:单个财经频道选股策略:基于单个财经频道荐股栏目的荐股信息,考虑在全样本内,单个财经网站不区分行业、不考虑个股当日表现下的荐股能力;在创业板股票的荐股能力;在沪深 300 指数成分股中的荐股能力以及在申万一级行业指数的荐股能力。
多财经频道智能选股策略:基于单个财经频道的前期一段时间内的单个策略表现,利用前期表现优异网站的荐股信息构成超配组合,考虑多个财经网站下的超配组合的策略表现。与单策略类似,考虑全样本内,不区分行业、个股当日表现的动态多策略;区分申万一级行业的动态策略。
实证结果
历史回测结果显示,在单个财经频道事件选股策略下,策略存在明显的短期效应,以持有期 2个交易日最为明显。在不区分行业以及当日表现等因素的影响下,持有期为 2 个交易日的策略在回测期内的表现最为优异,其中新浪财经的荐股表现在历史回测期内表现最好,年化超额收益率为64.35%;在创业板的选股能力上,新浪财经以及华讯财经网上相对上证指数超额收益明显;在多财经频道选股策略下,策略同样存在明显的短期效应,其中在不区分行业的情况下,考虑各个网站前5 个交易日表现,选择前 50%网站推荐个股形成超配组合策略表现优异,年化超额收益率为43.66%。而在考虑区分申万一级行业的情况下,考虑各个网站前 30 个交易日表现,选择前 50%网站推荐个股形成超配组合策略表现优异,年化超额收益率为 21.82%。
一、前言
当前,是互联网信息时代。互联网在过去10年里,经历了快速发展阶段,信息的爆炸性增长也使得人们获取的信息量迅速地增加。人们获取信息的途径也越来越丰富。而在互联网大数据时代下,信息的提供者与使用者之间的界限已经越来越模糊,金融信息的来源渠道也越来越丰富多样。投资者有更多的渠道来获取相关的金融信息,过去上百年的金融研究,往往局限于对以数字形式存在的数据的研究,而忽略了对非结构化的金融“数据”的研究,在当前互联网时代下,分析师的研究报告、股吧论坛帖子的信息、新闻媒体的新闻以及微博和维信等非结构化文本信息往往能够反应当前市场上投资者对股市的投资情绪,而这些信息往往又对投资者的投资决策起到潜移默化的作用。据相关报道,2011年8月24日,巨人网络董事长兼首席执行官史玉柱通过微博透露中国人寿“虎视眈眈”欲控股民生银行,随后民生银行股价在两个交易日大涨,史玉柱旗下公司所持该行股份浮盈2.56亿元, 他的这条微博也因此被称为“史上最贵微博”; 2012年12月6日,“SOHO中国”在某热门财经网站上发布中标消息称:“在刚刚结束的光华路SOHO2项目地上钢结构定标会上,浙江杭萧钢构股份有限公司成功中标!”,随后,SOHO中国董事长潘石屹转发并评论。下午开盘后,杭萧钢构股价应声而上,最高上涨逾6%。可见,媒体的传播已经对个股的涨跌产生了重要的影响。之前我们分别通过股吧帖子论坛、上市公司公告内容、个股新闻热度等三个角度对互联网的文本信息对股市的影响进行了统计分析以及实证,得到了较好的就结果。本专题报告从另一个角度考虑互联网财经相关的文本信息对股市的影响进行研究,我们考虑热门财经网站上推荐股票栏目上的荐股信息对股市的影响,利用大量的热门财经网站上海量的荐股文本信息,从中寻找对个股、行业存在显著影响的信息,并基于此构建量化策略。
二、互联网财经荐股体系介绍
2.1 互联网财经频道选股策略框架

财经频道选股策略整个框架分为三大部分:数据获取、数据处理以及策略构建。数据获取阶段首先收集热门网站的个股推荐栏目,然后对各个网站的个股推荐栏目网页源代码进行解析,分析出需要提取的内容所对应的网页源代码格式,对于返回内容直接为网页所见内容的,直接采用字符串匹配或者HTMLDOM的结构进行解析,推荐使用HTMLDOM结构提取代码,这样爬取下来的内容,“噪音”几乎没有。有些网站信息是经过浏览器再解析后呈现出来的,此时直接对返回的网页源代码进行解析后,得不到需要提取的内容,此时可以考虑是通过JS解析的方式重新获取特定的内容,将需要爬取的特定信息爬取下来后以数据库或者文本文件的形式按一定规律存储于本地磁盘中。
数据处理分为预处理以及后期处理两块,预处理这一块主要是对由于访问错误或者链接已经失效内容的清洗,后期处理主要是针对预处理后的文本信息根据特定的算法提取每个推荐的个股信息(这里的难点是尽量提高个股信息提取的准确度),可以考虑先对各个网站的文本结构进行分析,找出噪音的规律以及有用信息的规律。策略构建是本专题研究的重点,主要考虑各个网站的荐股能力,分为整体荐股能力、相对申万一级行业荐股能力、相对沪深300、创业板荐股能力;同时考虑多个网站在单策略结果下的动态选股策略,分为考虑整体的选股能力以及区分行业的选股能力。

上图刻画了在大规模的互联网数据爬取过程中的整体框架,对于爬取大量财经网站的荐股文本信息,可以分为以下几个主要步骤:
1) 首先对需要批量爬取信息的网页结构进行研究,主要是研究需要提取的特定信息的网页格式进行研究,这步骤可以借助在IE浏览器下打开需要提取信息的网页,然后调用出开发人员工具,找到需要批量提取的特定信息的网页代码规则,或者利用Firefox浏览器下的XPATH工具以及View Source Chart工具以及Firebug、以及Httpfox工具;
2) 找到各个财经网站上需要爬取的财经信息栏目url的规律,然后直接遍历所有需要爬取的财经网站的荐股栏目信息,获取到各个网站历史荐股信息;
3) 对于大规模的互联网信息抓取而言,单线程的数据获取是一项非常局限的事情,因此多线程、分布式的信息抓取平台是必须搭建的。因此数据的抓取平台的搭建是一项基础性的工作。由于需要爬取的财经小编的网站数量多,并且需要爬取所有的个股推荐信息,因此爬取的效率是非常关键的一步,多线程、分布式爬取是解决效率问题的好办法。对特定网站需要爬取内容的,需要注意的是网站代码格式不一致问题,因此需要动态地调整爬取程序(正常爬取代码格式+特殊的格式爬取),爬取完成后信息的规范化存储也是一个比较重要的问题,这个可以方便后面的数据清洗、处理。推荐采用数据库存储格式或者本地磁盘的文本形式存储。同时出于对网站安全的考虑,需要实时监控程序的运行,防止网络访问限制问题,设置适当的断线重连机制,IP切换机制等;
4) 对于抓取到的信息统一批量存储到指定的数据库或者本地磁盘中,构成后续分析的底层的数据库。
2.3 数据来源
经过手工搜索热门财经网站,我们确定了10个热门财经网站的荐股栏目,分别为:中国证券网_热点研究个股推荐、南方财富网_个股推荐、同花顺_个股投资、搜狐网站_金罗盘、新浪财经_个股研究、华讯财经_机构荐股、华讯财经_个股点评、华讯财经_内参、搜狐证券_个股风云、凤凰网_黑马集中营。这样我们就选定了爬取的财经“网站池”。

……
三、财经小编量化策略构建
在上一节的内容中,我们已经详细地介绍了本专题量化策略构建的整体的框架以及在构建财经小编量化策略过程中需要注意的一些问题点。接下来我们将重点介绍本专题中所构建的量化策略。
首先基于本专题所跟踪的热门财经网站的荐股栏目历史荐股信息,考虑单个财经网站上荐股栏目的选股能力,主要考虑四个方向的策略:考虑全样本内个股的推荐能力、考虑全样本内沪深300个股的推荐能力、考虑全样本内创业板个股的推荐能力以及考虑全样本内申万一级行业指数成分股的推荐能力;其次基于单个财经网站上荐股栏目的选股能力的量化策略,考虑网站之间的荐股能力,择优选择前期表现较好的热门财经网站,然后基于这些热门网站的荐股信息构建量化策略。我们首先看一下各大热门财经网站每日荐股信息的统计指标。
3.1 热门财经网站荐股信息统计-全样本统计
我们首先从简单的统计指标上,看一下各大热门财经网站上每日荐股数量的相关信息。从全样本不区分行业上看,从图10中可以看到,各大热门财经网站上荐股栏目每日推荐的个股数量均匀,其中搜狐网的每日荐股数目最少,平均下来只有每日5只个股,而华讯财经的机构荐股栏目,平均意义上讲,荐股数量最多344只。从标准差角度看,华讯财经的机构荐股栏目每日荐股的数量的波动也是最大的,而搜狐网的金罗盘荐股栏目中每日荐股的数量的波动是最小的。各大热门财经网站荐股数量存在较大差异,也有可能是因为各大热门财经网站样本的时间长度不一造成的。


3.2 热门财经网站荐股信息统计-创业板、沪深 300 指数成分统计
从区分各大网站每日推荐的板块角度上看,就创业板而言,各大财经网站每日平均推荐的创业板股票占总推荐股票比例在15%左右,其中,南方财富网的个股推荐栏目每日平均推荐的创业板股票占其每日平均推荐股票的比例最高,为20%.而中国证券网的热点研究个股栏目每日平均推荐的创业板股票占其每日平均推荐股票的比例最低,为8%;从沪深300指数成分推荐而言,各大热门财经网站每日推荐的沪深300指数成分股数量占其推荐股票数量均大于20%,其中同花顺的个股投资栏目推荐比例最少,为21%,而搜狐网的金罗盘栏目推荐比例最多,为43%。

3.3 热门财经网站荐股信息统计-申万一级行业指数成分统计
平均意义上讲,从各大热门财经网站每日推荐的申万一级行业指数成分数量上看,各大热门财经网站在 28 个申万一级行业指数成分中推荐的个股数量不均匀,各大热门财经网站之间在 28 个申万一级行业指数成分中推荐的个股数量也不均匀,每个网站侧重推荐不同的申万行业。
……
五、总结
5.1 总结
本专题报告基于互联网大数据时代背景下,挖掘了热门财经网站上个股推荐栏目的文本内容隐藏的有价值的信息。基于文本挖掘技术,本专题报告通过构建量化策略对热门财经网站上的荐股的文本信息进行了量化度量。
通过所构建的量化策略,对各大热门财经网站上荐股栏目的文本信息进行了历史回测,实证结果表明,所构建的量化策略在回测期间内,表现优异,主要结论有:
对于热门财经网站的荐股信息,存在明显的短期效应,所构建的量化策略在短期内获得的超额回报显著,尤其以持有期为2个交易日的最为显著;
不同热门财经网站荐股信息存在不同的优势,在各行业的策略表现各异;
通过单个网站的单策略建立了多策略驱动下的动态策略,动态策略存在明显的短期超额收益效应,其中在不考虑区分行业的情况下,考虑各个网站单策略下前5个交易日表现,选择前50%网站当前交易日推荐的个股形成的超配组合的在持有期为2个交易日的策略在回测期内表现最为优异,而在考虑区分申万一级行业的情况下,考虑各个网站单策略下前30个交易日,选择前50%网站当前交易日推荐的个股形成的超配组合的在持有期为2个交易日的策略在回测期内表现仍最为优异。