全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管文库(原现金交易版)
3281 0
2021-05-01
最近一直在找和讯网的CSR的数据,但是发现下载下来的数据尤其是2019、2020与官网数据有差别。根据自己的观察以及论坛信息,发现这是因为和讯网官网的数据会变化,2010-2018年的相对稳定(与官网也有差别),而从2019年开始各个下载下来的数据基本都不一样。于是自己用stata爬取了和讯网2019年的数据。
主要逻辑是通过URL:http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2019-12-31&count=20&pname=20&titType=null&page=1&callback=hxbase_json11619798541446
中“page=1”代表页码的变化设置循环语句提取数据,再通过正则表达式获取数据中需要的各个部分。包括总评分和五个分项的数据。
各位也可以去找视频教程学习。我的代码参考了Youtube的视频,但是原博主的代码无法获取负数而和讯网数据包含了负值(这也是因为在正则表达式语言中[0-9]只代表正整数,而无法获取负数)。我从符号“-”下手解决这个问题(关于这部分如果有更高明办法的同学老师欢迎交流!),因此我的代码可以获取所有的数值。
最后需要注意的是我爬取2019年数据的时间是2021年4月30日(CET),只代表了这个时间数据与官网一致,以后或许是有变化的,大家可以在使用的时点自行爬取。
我只爬取了2019年的,因此代码也是爬取2019年。改变循环语句中表示末页页码的数字&改变URL中的“date=20xx-12.31”即可爬取其他年度,或许有爬取全年度的嵌套循环语句的方式,我没有涉及这方面。
*注意:由于我在国外,在爬取时候偶尔碰到过connection time-out的问题,不过国内的小伙伴应该不会碰到。另外可能也有软件以及网站方面的问题,如果中断只要看一下Stata根目录 save 到了第几页,改变一下循环语句继续即可。也可以不要一次爬取太多,如一次50页,不会出现问题的(超过100页的时候感觉Stata明显吃力,还是建议大家一次少一点,也有可能是我电脑的问题)。
附件包括:dofile(txt and Stata-do), 2019年爬取的数据(xlsx and dta), 数据2010-2018(xlsx and dta,这部分我是论坛下载的)。*注意:2010-2018跟现在的官网也有一些差别(如2018总数为4244,这份数据为4227),大家需要最新的还是建议自行爬取数据吧
微信图片_20210501133439.png 微信图片_20210501133448.png 微信图片_20210501133454.png 微信图片_20210501133459.png 微信图片_20210501133507.png 微信图片_20210501133513.png 微信图片_20210501133737.png
Hexun-Stata.rar
大小:(2.37 MB)

只需: RMB 30元  马上下载

本附件包括:

  • GrabdataHexun.do
  • HX2010-2018.xlsx
  • StataDo-Hexun.txt
  • HX2019.xlsx
  • HX2010-2018.dta
  • HX2019.dta



二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群