文本挖掘特征选择：该用什么方法？

1727

收藏 2016-05-02

我在尝试用文本挖掘来处理微博信息，在特征选择被卡住了：我试了两种，一种是词频统计后人工筛选前X百个，一种是randomforest的importance项筛选前X百个，发现前者在训练时效果更好。但二者在后面分析新数据时效果都一般，一眼扫过去分类分得乱七八糟。

后来还看到tfidf，但因为我分析微博数据，不知道总文档库该去哪找，感觉无法实行了。

求教大神们都用什么方法来做这个事情呀？十分感谢！

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

全部回复

吴_楚

2016-6-22 18:31:04

可以用word2vec

扫码加我拉你入群

请注明：姓名-公司-职位

以便审核进群资格，未注明则拒绝

扫码加我 拉你入群

扫码加我 拉你入群

分享

扫码加好友，拉您进群

扫码加我拉你入群

扫码加我拉你入群