我要从http://www.chosun.com(朝鲜日报,韩文)这个网站上,
先以2010.7.26~2010.8.24为时间区间,以“무상급식”为关键词,查找所有符合条件的新闻。
通过查找条件找到的页面如下:
http://search.chosun.com/search/news.search?query=%EB%AC%B4%EC%83%81%EA%B8%89%EC%8B%9D&pageno=0&orderby=docdatetime&naviarraystr=&kind=&cont1=&cont2=&cont5=&categoryname=&categoryd2=&c_scope=&sdate=2010.07.26&edate=2010.08.24&premium=
因为是很久之前的新闻,所以查看需要登陆,我已经注册好了有需要可以提供。
然后,有的新闻会有网友留言,比如下面这一篇新闻有84条留言。
http://news.chosun.com/site/data/html_dir/2010/08/20/2010082000149.html
点击红色的(84)那个部分会跳转到本篇新闻的所有留言页面:
http://m100.chosun.com/svc/guest//list.html?flag=json&article=2010082000149&title=%5BNEWS%20%26%20VIEW%5D%20%26%2339%3B%uACF5%uC9DC%20%uAE09%uC2DD%26%2339%3B%uC758%20%uBAA8%uC21C&artcode_dir1=dirname&artcode_id=32&art_site=WWW&artbbs_site=WWW
我的目标是把每篇新闻下面的评论(网友ID,留言时间,留言内容,针对留言的留言,赞成,反对)这些信息采集下来。
留言形式如下图所示:
中间红色部分就是别的网友针对这个网友的留言的留言,后面是显示赞成(2) 反对(0)。
以我弱爆了的计算机知识,再在网上查了查,本来以为通过python的beautifulsoup模块也许能够解决这个采集,但是我果然还是弱爆了,头疼了一天除了会用python弄个猜数字大小的小程序以外,连bs4都安装不上~
又查了查,看到说可以使用VB实现Excel自动获取网页源代码中特定数据什么的~我估摸着就是我想做的事情吧~
本来想自己琢磨一下这个,想了想还是放弃好了,一点基础都没有还是别浪费时间了,求助能人吧。
到底应该用什么办法去实现?有没有愿意帮忙的可以详谈~
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝