全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 R语言论坛
1172 1
2017-09-22
本人刚尝试R软件的网络爬虫,用的的rvest包,遇到一个问题,希望能有大神帮助。
在IT桔子网站(https://www.itjuzi.com/investevents)爬了融资信息,包括“时间”、“公司”、“轮次”、“融资额”、“投资方”。
其中投资方列里,会有几个投资公司一起投,但是直接把几家公司名字合并成一个了: 微信截图_20170922160514.png
源代码是这样的: 2.png
这是爬虫代码:investor <- web%>%html_nodes("div.investorset")%>%html_text()
爬出来结果是这样: 3.png


问题是,可以将这些公司名字分开吗?
ps. 我有想过:1、有没有这样一个函数,常用风险投资公司的名字作为字段库,用该函数将这些公司进行智能分段
                     2、或者,是不是有办法在爬的时候直接将他们分开,用“,”或者用什么其他符号也可以,这样就方便将他们分段了

我的想法不知道行不行,有会的大神,请教我!!!请教我!!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2017-9-22 16:26:47
第一次发帖,排版不好。好像额修改不了,希望大家,多多包涵!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群