全部版块 我的主页
论坛 提问 悬赏 求职 新闻 读书 功能一区 经管百科 爱问频道
2112 18
2015-09-29
需要检查30000 个 文档是否存在 , 一个一个检查太费时
帮帮看能能减轻我检查 URL activate or not?  30000 links 放进 .dat 来检查

搞个 Tools 也可 ?

url keyin and return.png

When i keyin url if there is a result , it will return like the pages below
Result Return1.png

if there is no result, the pages will return as below
Result ReturnError.png

Please help !

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2015-9-29 18:26:03
kychan 发表于 2015-9-30 17:44
logically , 输入 "https: ..... ano=292092" 将会显出 "https: ..... ano=292092" 不然就 "https:....  ...
你的意思是,输入网址,如果页面中出现“student details”就通过,反之页面中出现“unauthorized access”就不通过是吗?
我个人对php+mysql比较熟悉,不知道适不适合你
可以建一个数据库导入这30000条网址数据
然后写一个php代码,用file_get_contents($url);语句读取数据库中第一条网址页面中间的内容
用if判断内容将你需要的页面显示出来,或者对结果进行分类输出。
最后再循环,处理数据库中第二条网址……只到全部处理完。
不知道我这样说明白了么?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-29 18:53:55
什么意思
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-29 19:11:33
看不懂
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-30 15:53:11
意思看懂了,但是不知道楼主要查什么呢?
是地址打开以后的页面中间某个关键词么?还是仅仅是判断页面能不能正常访问?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2015-9-30 15:58:55
如果是搜索30000个页面中间的某个关键词
可以考虑写一个网络爬虫(蜘蛛)
让爬虫帮你搜索url以及中间内容
可以参考一下这篇文章
http://www.nowamagic.net/librarys/veda/detail/1045
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群