全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
1948 2
2013-01-23
我用R里面的TwitterR package下载了几天的Tweets。但是根据每个Tweet的内容,我要分类出来Tweets(用户自己发的),Replies(用户回复别人的)以及Retweets(用户转发别人的).
大家晓得每类的特征吗?正常来说,Replies是应该以@开头; Retweets应该以RT开头;一般的Tweet就是以 数字或者字符开头,不应该含有@和RT。这样对吗?或者你那里有现成的针对每种tweet的常规表达式吗?


谢谢大家指教啦。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2013-1-24 11:52:38
数据是怎样的  能否发点sample 上来看看
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2013-1-25 00:38:44
wininghe 发表于 2013-1-24 11:52
数据是怎样的  能否发点sample 上来看看
就是每个tweet占一个excel 格。
下面是几个tweet的内容:
@iiRomyGeurts_ haha dan bel ik de kindertelefoon in verband met huiselijk geweld

RT @jeteddybeerx: als @AMBER_ISDENAAM de kindertelefoon gaat bellen komt nooit goed, word veel te serieus. -HAHA

"@jeteddybeerx: als @AMBER_ISDENAAM de kindertelefoon gaat bellen komt nooit goed, word veel te serieus. -HAHA"dit dus :$

RT @Wijkagent_Brugt: Even een opfrisser: Spoed <U+260E>112  Geen spoed <U+260E>0900-8844  Anoniem <U+260E>0800-7000  Red een Dier <U+260E>144  Kindertelefoon <U+260E>0800-0432  PLS RT?

"@Even een opfrisser: Spoed <U+260E>112  Geen spoed <U+260E>0900-8844  Anoniem <U+260E>0800-7000  Red een Dier <U+260E>144  Kindertelefoon <U+260E>0800-0432 cilinderonline.nl"
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群