全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
2778 12
2016-06-07
字符串处理20160607.zip
大小:(166.75 KB)

 马上下载

本附件包括:

  • 字符串处理20160607.RData



附件是R文件压缩包,里面是一个length=51的字符串,本人在爬取信息过程中,需要把showOrderComment和<div class='uploadimgdiv'>之间的content替换掉或者删除,这个content影响了我下一步拆分,例子如:
showOrderComment\":{\"id\":97058903,\"guid\":\"4d18d99a-ec9c-47fb-8216-00907e7732ee\",\"content\":\"怎么晒呢?,大家都吃过吧?,还好,哈哈哈哈哈哈哈哈哈<div class='uploadimgdiv'>


各位大神,求助求助求助!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2016-6-7 11:16:50
只要这类字串模式唯一可识别,应该可以处理的哈
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-7 13:45:21
这个东西大概是通过jsonp返回html,先用正则表达式把jsonp变成json,再用R的json包解析,最后可以用rvest之类的包解析content中的html,或者直接用正则表达式把div去掉。
parse.r.txt
大小:(386 Bytes)

 马上下载


复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-7 14:38:09
马甲1号 发表于 2016-6-7 13:45
这个东西大概是通过jsonp返回html,先用正则表达式把jsonp变成json,再用R的json包解析,最后可以用rvest之 ...
不是想要把那一部分截取的,你选择的web[5]只有一个匹配,有的有两个或者3个匹配这个showordercomment,.
以下是我的替换过程,可惜,web中的第一个可以实现替换,第2、3个就不行了
length(web)
p<-c("ppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppppp")#构造替换信息
substr(web2,regexpr("showOrderComment",web2)+16,regexpr("<div class='uploadimgdiv",web2)-1)<-p#替换图片信息

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-7 15:01:47
太阳之子追梦者 发表于 2016-6-7 14:38
不是想要把那一部分截取的,你选择的web[5]只有一个匹配,有的有两个或者3个匹配这个showordercomment,.
...
直接用解析过的json操作不是更方便么?为啥非要硬改jsonp?这样用正则表达式乱改可能会破坏json数据结构的,反而难处理。。。搞不懂你的需求。。。
多个div一样搞定
复制代码
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2016-6-7 16:04:26
马甲1号 发表于 2016-6-7 15:01
直接用解析过的json操作不是更方便么?为啥非要硬改jsonp?这样用正则表达式乱改可能会破坏json数据结构的 ...
hello,虽然方法和我想表达的不一样,但是,但是你的方法实现了我想要的结果--------对应的内容都抓取了,great!如parsed$comments$userRegisterTime、parsed$comments$userProvince、parsed$comments$content,非常感谢!
可否批量实现呢?因为你的是web[5],哈哈哈
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群