全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1004 0
2014-01-02

我要从http://www.chosun.com(朝鲜日报,韩文)这个网站上,

先以2010.7.26~2010.8.24为时间区间,以무상급식为关键词,查找所有符合条件的新闻。

通过查找条件找到的页面如下:

http://search.chosun.com/search/news.search?query=%EB%AC%B4%EC%83%81%EA%B8%89%EC%8B%9D&pageno=0&orderby=docdatetime&naviarraystr=&kind=&cont1=&cont2=&cont5=&categoryname=&categoryd2=&c_scope=&sdate=2010.07.26&edate=2010.08.24&premium=

因为是很久之前的新闻,所以查看需要登陆,我已经注册好了有需要可以提供。

然后,有的新闻会有网友留言,比如下面这一篇新闻有84条留言。

http://news.chosun.com/site/data/html_dir/2010/08/20/2010082000149.html

?? ??.jpg

点击红色的(84)那个部分会跳转到本篇新闻的所有留言页面:

http://m100.chosun.com/svc/guest//list.html?flag=json&article=2010082000149&title=%5BNEWS%20%26%20VIEW%5D%20%26%2339%3B%uACF5%uC9DC%20%uAE09%uC2DD%26%2339%3B%uC758%20%uBAA8%uC21C&artcode_dir1=dirname&artcode_id=32&art_site=WWW&artbbs_site=WWW

我的目标是把每篇新闻下面的评论(网友ID,留言时间,留言内容,针对留言的留言,赞成,反对)这些信息采集下来。

留言形式如下图所示:

2.jpg

中间红色部分就是别的网友针对这个网友的留言的留言,后面是显示赞成(2 反对(0)。

以我弱爆了的计算机知识,再在网上查了查,本来以为通过pythonbeautifulsoup模块也许能够解决这个采集,但是我果然还是弱爆了,头疼了一天除了会用python弄个猜数字大小的小程序以外,连bs4都安装不上~

又查了查,看到说可以使用VB实现Excel自动获取网页源代码中特定数据什么的~我估摸着就是我想做的事情吧~

本来想自己琢磨一下这个,想了想还是放弃好了,一点基础都没有还是别浪费时间了,求助能人吧。

到底应该用什么办法去实现?有没有愿意帮忙的可以详谈~


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群