对三位房地产大佬在搜房网博客近期文章的分析:
搜房网博客链接:
潘石屹
http://blog.soufun.com/blog_132261.htm
王石
http://blog.soufun.com/blog_1525150.htm
任志强
http://blog.soufun.com/blog_1796106.htm
标题:
> txt
MetaID fname fid ID
1 0 穿越“鬼门关”登山者视界4(王) 3 1
2 0 美丽的建筑网友交流42(王) 7 2
3 0 如何了解日本民族网上交流43(王) 8 3
> txt
MetaID fname fid ID
1 0 从发改委的文件看政策的变化(任) 4 1
2 0 该不该降价(任) 6 2
3 0 听老柳侃管理(任) 11 3
4 0 稳定、明确的政策预期更为重要(任) 12 4
5 0 先拆还是先建,这是一门艺术(任) 13 5
6 0 幸福指数——再次写给八零后(任) 16 6
> txt
MetaID fname fid ID
1 0 IPAD现象预示了社会结构的变化(潘) 1 1
2 0 SOHO中国进驻上海外滩(潘) 2 2
3 0 房地产业要做受人尊重的行业(潘) 5 3
4 0 商业地产与住房是两个完全不同的市场(潘) 9 4
5 0 世界正经历分娩之阵痛(潘) 10 5
6 0 现在中国房地产市场上“尖叫”声一片(潘) 14 6
7 0 信仰改变了我的生命(潘) 15 7
8 0 银河SOHO和光华路SOHO2通过LEED预认证(潘) 17 8
9 0 银河SOHO开盘三天销售46.75亿元(潘) 18 9
10 0 致《酥油》作者: 你的爱和我们的感受构成世界的力量(潘) 19 10
>
结果:
> ##
任志强最喜欢的用词:
> inspect(dtm_rzq[,j])
A document-term matrix (6 documents, 10 terms)
Non-/sparse entries: 41/19
Sparsity : 32%
Maximal term length: 2
Weighting : term frequency (tf)
Terms
Docs 价格 企业 租赁 发展 改革 没有 社会 一代 知道 中国
1 0 1 5 4 7 0 3 0 0 6
2 31 2 0 3 1 7 4 0 4 15
3 0 42 0 4 0 5 4 0 0 2
4 9 1 0 0 0 7 4 0 3 4
5 1 0 25 3 0 6 4 0 2 4
6 1 5 0 25 48 30 55 41 35 51
> ##
潘石屹最喜欢的用词:
> inspect(dtm_psy[,j])
A document-term matrix (10 documents, 9 terms)
Non-/sparse entries: 49/41
Sparsity : 46%
Maximal term length: 4
Weighting : term frequency (tf)
Terms
Docs 一个 商业 上海 外滩 项目 房地产 市场 土地 soho
1 17 12 0 0 0 4 4 1 1
2 6 17 15 27 21 1 2 2 6
3 8 0 0 0 2 11 2 10 0
4 6 16 0 0 2 0 5 0 13
5 10 2 0 0 6 0 0 0 9
6 5 4 3 0 1 17 37 15 0
7 5 0 0 0 1 0 1 0 0
8 1 0 0 0 8 0 0 0 7
9 1 15 0 0 4 0 9 0 18
10 7 0 0 0 0 0 0 1 0
> ##
王石最喜欢的用词
> inspect(dtm_ws[,j])
A document-term matrix (3 documents, 16 terms)
Non-/sparse entries: 17/31
Sparsity : 65%
Maximal term length: 2
Weighting : term frequency (tf)
Terms
Docs 冰川 穿越 攀登 融化 珠峰 处理 东京 焚烧 垃圾 等级 了解 日本 喜欢 相扑
1 18 6 4 8 4 0 0 0 0 0 0 0 0 0
2 0 0 0 0 0 4 4 8 11 0 0 1 0 0
3 0 0 0 0 0 0 0 0 0 4 4 7 4 10
Terms
Docs 运动 秩序
1 0 0
2 0 0
3 4 6
由此看来王石仍然在到处玩儿,怪不得从万科A到万科B,再到万科债券08G1、08G2都跌的一塌糊涂。
任志强的兴趣仍在研究国家政策,忧国忧民啊!
老潘的工作重点已经转到上海的商业地产了。
好吧,现在再用支持向量机的方法对上面的数据建模,看是否能分辨出某些话是谁说的:
> library(e1071)
> ## 生成训练用的数据 ##
………………
> tt <- rbind(tt,tt1)
>
> tt[is.na(tt)]<-0
> tt[,"作者"] <- factor(tt[,"作者"])
> model <- svm(作者 ~ ., data = tt[c(1:4,7:14,17:18),], kernel = "sigmoid")
> summary(model)
Call:
svm(formula = 作者 ~ ., data = tt[c(1:4, 7:14, 17:18), ], kernel = "sigmoid")
Parameters:
SVM-Type: C-classification
SVM-Kernel: sigmoid
cost: 1
gamma: 0.01666667
coef.0: 0
Number of Support Vectors: 10
( 4 4 2 )
Number of Classes: 3
Levels:
潘石屹 任志强 王石
> ## 模型拟合测试 ##
> ##
训练集(样本内)拟合 ##
> pred <- predict(model, tt[c(1:4,7:14,17:18),1:length(hh)])
> table(pred, tt[c(1:4,7:14,17:18),"作者"])
pred 潘石屹 任志强 王石
潘石屹 7 0 0
任志强 1 4 0
王石 0 0 2
> ##
测试集(样本外)预测 ##
> pred <- predict(model, tt[c(5:6,15:16,19),1:length(hh)])
> table(pred, tt[c(5:6,15:16,19),"作者"])
pred 潘石屹 任志强 王石
潘石屹 2 0 0
任志强 0 2 0
王石 0 0 1
训练集中有一个错的,但预测集中全中。
*******************************************************
哪么随机找两段他们的话看能判断出吗?
>
> test <- c("昨天休息了一天,驻地村子现在很大,二年前很小,自首位成功登上珠穆朗玛峰的探险家埃德蒙.希拉里组织义工建立学校医疗诊所,当地条件开始显著改善,目前这里三分之一的当地人已经移民国外,境外一些人士建立了一些家庭小旅馆,卫生条件不错,新西兰狮子会建立了一家小卫生所,以改善当地的医疗条件。这些让我体会到登山这项运动对当地生活条件改善的有益影响。")
>
………………
> tt1[,c(test_h)] <- test_tt[,c(test_h)]
> tt1[is.na(tt1)]<-0
> predict(model, tt1)
1
王石
Levels: 潘石屹 任志强 王石
>
对了,是《珠峰零公里口述之四 (2010-4-9 16:06:22)》中的一段话。
++++++++++++++++++++++++++++++++++++++++
> test <- c("2007年出台的“第二套住房的信贷”新政,让中国的房地产市场调头直下,在“两防”的政策推力和美国的金融危机双重作用之下,让中国的宏观经济也随之调头直下,GDP快速下降到6.3%,从而让中国**不得不用四万亿元投资、放量的货币信贷和解封“第二套住房信贷”改为0.7倍信贷降息和对改善性住房(实际的第二套)信贷给以支持,才让中国的房地产和宏观经济从谷底翻转恢复到保八之上。
+ ")
……………………
> tt1[,c(test_h)] <- test_tt[,c(test_h)]
> tt1[is.na(tt1)]<-0
> predict(model, tt1)
1
任志强
Levels: 潘石屹 任志强 王石
>
也对了,是《何需分清几套房 (2010-4-29 9:38:52) 》中的一段话
详细见下贴:
http://www.pinggu.org/bbs/thread-858341-1-1.html