全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
6765 9
2013-06-18
我试着从搜房网上抓点东西,怎么都是乱码呢,请大家帮忙看看,谢谢

filename web_loc url "http://gelingelinjd.soufun.com/" debug;

data source;
     format webpage $1000.;
     infile web_loc lrecl=32767 delimiter=">";
     input webpage $ @@;
                                                                                      run;

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-6-18 23:01:56
试了一下,没成功
用headers=选项导出http get 信息为
复制代码
抓包得到的header为
复制代码
使用抓包的这个文件 d:\HEADERS_true.txt(去除host属性)
复制代码
结果还是乱码。网页的编码是GB2312,修改Accept-Encoding:GB2312依然是乱码。
期待高手
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-6-19 10:11:28
moyunzheng 发表于 2013-6-18 23:01
试了一下,没成功
用headers=选项导出http get 信息为抓包得到的header为使用抓包的这个文件 d:\HEADERS_t ...
谢谢你

我试着去抓取www.sina.com,是可以的,不知道为什么搜房网的不可以,不懂ing

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-8-15 12:14:31
楼主,问题解决了么?我也需要从搜房网抓数据,同样乱码,跪求解决方案啊
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-8-15 15:26:50
爬取网页数据要懂一点点网页知识,在infile后面再加一句encoding="utf-8"即可
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-8-15 15:43:26
不好意思,我之前遇到问题是如我上诉方法解决的,我刚才试试了你的网站,调试了几次不成功,应该是网页的原因。本人QQ707931339, 学爬虫时间也不长,可以多多交流
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群