全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 SAS专版
2058 6
2014-04-16
我有两列数据。
一个是ID,一个是这个ID浏览的网页。

1

http://video.sina.com.cn/vlist/news/zt/todayhotnewstogather/?opsubject_id=top1#123449194

1

http://video.sina.com.cn/vlist/news/zt/todayhotnewstogather/?opsubject_id=top1#123449194

1

http://video.sina.com.cn/vlist/news/zt/todayhotnewstogather/?opsubject_id=top1#123449194

1

http://video.sina.com.cn/vlist/news/zt/todayhotnewstogather/?opsubject_id=top1#123449194

1

http://video.sina.com.cn/ent/#123657276

1

http://video.sina.com.cn/ent/#123659241

1

http://model.auto.sina.com.cn/highpix/11307/35054369#35054361

1

http://model.auto.sina.com.cn/highpix/11307/35054369#35054364

1

http://model.auto.sina.com.cn/highpix/11307/35054369#35054367



我已经知道每个网站的主页网址如下。
360搜索搜索Searchso.comhttp://www.so.com
Google/谷歌搜索Searchgoogle.com.hkhttp://www.google.com.hk
百度搜索Searchbaidu.comhttp://www.baidu.com
必应Bing搜索Searchcn.bing.comhttp://cn.bing.com


那么我怎么能够把每个ID浏览的这些网页分类定义?
比如这样

1

360搜索搜索Searchso.com

1

Google/谷歌搜索Searchgoogle.com.hk

1

百度搜索Searchbaidu.com

1

必应Bing搜索Searchcn.bing.com


有办法啊???


二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2014-4-17 10:57:30
顶一下
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-17 18:45:21
请提供测试数据集。附件。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-21 17:46:05
zhengbo8 发表于 2014-4-17 18:45
请提供测试数据集。附件。
你好,能帮我看看吗?
有个简短的附件
附件列表

test_data.xlsx

大小:11.06 KB

 马上下载

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-21 19:43:03
没看明白你的需求。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2014-4-22 09:45:33
zhengbo8 发表于 2014-4-21 19:43
没看明白你的需求。
就是需要每一个URL都能保留主页的地址,然后去匹配。
比如http://cdn.9377s.com/tdyx/6279wd ... gg=63&_=css.css 这个URL,我只需要保留http://cdn.9377s.com/
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群