全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
4747 15
2010-07-25
对三位房地产大佬在搜房网博客近期文章的分析

搜房网博客链接
潘石屹
http://blog.soufun.com/blog_132261.htm
王石
http://blog.soufun.com/blog_1525150.htm
任志强
http://blog.soufun.com/blog_1796106.htm

标题
> txt
  MetaID                          fname fid ID
1      0  穿越“鬼门关”登山者视界4(王)   3  1
2      0       美丽的建筑网友交流42(王)   7  2
3      0 如何了解日本民族网上交流43(王)   8  3
> txt
  MetaID                            fname fid ID
1      0   从发改委的文件看政策的变化(任)   4  1
2      0                   该不该降价(任)   6  2
3      0                 听老柳侃管理(任)  11  3
4      0 稳定、明确的政策预期更为重要(任)  12  4
5      0   先拆还是先建,这是一门艺术(任)  13  5
6      0   幸福指数——再次写给八零后(任)  16  6
> txt
   MetaID                                                 fname fid ID
1       0                      IPAD现象预示了社会结构的变化(潘)   1  1
2       0                              SOHO中国进驻上海外滩(潘)   2  2
3       0                        房地产业要做受人尊重的行业(潘)   5  3
4       0                商业地产与住房是两个完全不同的市场(潘)   9  4
5       0                              世界正经历分娩之阵痛(潘)  10  5
6       0                现在中国房地产市场上“尖叫”声一片(潘)  14  6
7       0                                信仰改变了我的生命(潘)  15  7
8       0               银河SOHO和光华路SOHO2通过LEED预认证(潘)  17  8
9       0                     银河SOHO开盘三天销售46.75亿元(潘)  18  9
10      0 致《酥油》作者: 你的爱和我们的感受构成世界的力量(潘)  19 10
>

结果
> ##  任志强最喜欢的用词
> inspect(dtm_rzq[,j])
A document-term matrix (6 documents, 10 terms)
Non-/sparse entries: 41/19
Sparsity           : 32%
Maximal term length: 2
Weighting          : term frequency (tf)
    Terms
Docs 价格 企业 租赁 发展 改革 没有 社会 一代 知道 中国
   1    0    1    5    4    7    0    3    0    0    6
   2   31    2    0    3    1    7    4    0    4   15
   3    0   42    0    4    0    5    4    0    0    2
   4    9    1    0    0    0    7    4    0    3    4
   5    1    0   25    3    0    6    4    0    2    4
   6    1    5    0   25   48   30   55   41   35   51

> ##  潘石屹最喜欢的用词
> inspect(dtm_psy[,j])
A document-term matrix (10 documents, 9 terms)
Non-/sparse entries: 49/41
Sparsity           : 46%
Maximal term length: 4
Weighting          : term frequency (tf)
    Terms
Docs 一个 商业 上海 外滩 项目 房地产 市场 土地 soho
  1    17   12    0    0    0      4    4    1    1
  2     6   17   15   27   21      1    2    2    6
  3     8    0    0    0    2     11    2   10    0
  4     6   16    0    0    2      0    5    0   13
  5    10    2    0    0    6      0    0    0    9
  6     5    4    3    0    1     17   37   15    0
  7     5    0    0    0    1      0    1    0    0
  8     1    0    0    0    8      0    0    0    7
  9     1   15    0    0    4      0    9    0   18
  10    7    0    0    0    0      0    0    1    0
> ##  王石最喜欢的用词
> inspect(dtm_ws[,j])
A document-term matrix (3 documents, 16 terms)
Non-/sparse entries: 17/31
Sparsity           : 65%
Maximal term length: 2
Weighting          : term frequency (tf)
    Terms
Docs 冰川 穿越 攀登 融化 珠峰 处理 东京 焚烧 垃圾 等级 了解 日本 喜欢 相扑
   1   18    6    4    8    4    0    0    0    0    0    0    0    0    0
   2    0    0    0    0    0    4    4    8   11    0    0    1    0    0
   3    0    0    0    0    0    0    0    0    0    4    4    7    4   10
    Terms
Docs 运动 秩序
   1    0    0
   2    0    0
   3    4    6


由此看来王石仍然在到处玩儿,怪不得从万科A到万科B,再到万科债券08G1、08G2都跌的一塌糊涂。
任志强的兴趣仍在研究国家政策,忧国忧民啊!
老潘的工作重点已经转到上海的商业地产了。

好吧,现在再用支持向量机的方法对上面的数据建模,看是否能分辨出某些话是谁说的:

> library(e1071)
> ##  生成训练用的数据   ##

………………
> tt <- rbind(tt,tt1)
>
> tt[is.na(tt)]<-0
> tt[,"作者"] <- factor(tt[,"作者"])
> model <- svm(作者 ~ ., data = tt[c(1:4,7:14,17:18),], kernel = "sigmoid")
> summary(model)
Call:
svm(formula = 作者 ~ ., data = tt[c(1:4, 7:14, 17:18), ], kernel = "sigmoid")

Parameters:
   SVM-Type:  C-classification
SVM-Kernel:  sigmoid
       cost:  1
      gamma:  0.01666667
     coef.0:  0
Number of Support Vectors:  10
( 4 4 2 )

Number of Classes:  3
Levels:
潘石屹 任志强 王石
> ##   模型拟合测试  ##
> ##  训练集(样本内)拟合     ##
> pred <- predict(model, tt[c(1:4,7:14,17:18),1:length(hh)])
> table(pred, tt[c(1:4,7:14,17:18),"作者"])
        
pred     潘石屹 任志强 王石
  潘石屹      7      0    0
  任志强      1      4    0
  王石        0      0    2
> ##  测试集(样本外)预测     ##
> pred <- predict(model, tt[c(5:6,15:16,19),1:length(hh)])
> table(pred, tt[c(5:6,15:16,19),"作者"])
        
pred     潘石屹 任志强 王石
  潘石屹      2      0    0
  任志强      0      2    0
  王石        0      0    1


训练集中有一个错的,但预测集中全中。
*******************************************************
哪么随机找两段他们的话看能判断出吗?
>
> test <- c("昨天休息了一天,驻地村子现在很大,二年前很小,自首位成功登上珠穆朗玛峰的探险家埃德蒙.希拉里组织义工建立学校医疗诊所,当地条件开始显著改善,目前这里三分之一的当地人已经移民国外,境外一些人士建立了一些家庭小旅馆,卫生条件不错,新西兰狮子会建立了一家小卫生所,以改善当地的医疗条件。这些让我体会到登山这项运动对当地生活条件改善的有益影响。")
>
………………
> tt1[,c(test_h)] <- test_tt[,c(test_h)]
> tt1[is.na(tt1)]<-0
> predict(model, tt1)
   1
王石
Levels: 潘石屹 任志强 王石
>
对了,是《珠峰零公里口述之四 (2010-4-9 16:06:22)》中的一段话。
++++++++++++++++++++++++++++++++++++++++
> test <- c("2007年出台的“第二套住房的信贷”新政,让中国的房地产市场调头直下,在“两防”的政策推力和美国的金融危机双重作用之下,让中国的宏观经济也随之调头直下,GDP快速下降到6.3%,从而让中国**不得不用四万亿元投资、放量的货币信贷和解封“第二套住房信贷”改为0.7倍信贷降息和对改善性住房(实际的第二套)信贷给以支持,才让中国的房地产和宏观经济从谷底翻转恢复到保八之上。
+ ")
……………………
> tt1[,c(test_h)] <- test_tt[,c(test_h)]
> tt1[is.na(tt1)]<-0
> predict(model, tt1)
     1
任志强
Levels: 潘石屹 任志强 王石
>
也对了,是《何需分清几套房 (2010-4-29 9:38:52) 》中的一段话


详细见下贴:

http://www.pinggu.org/bbs/thread-858341-1-1.html
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
2010-7-27 01:20:27
:)
哈哈哈哈
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-7-30 07:22:39
根据新浪微博的记录文字挖掘的娱乐圈关系图,关系近的人不一定认识,但性情、志趣相近,在一起一定有共同语言。

1.jpeg


经过因子分析后重新分类:
3.png        4.png
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-7-30 13:18:39
bensonwu 发表于 2010-7-30 07:22
根据新浪微博的记录文字挖掘的娱乐圈关系图,关系近的人不一定认识,但性情、志趣相近,在一起一定有共同语言。

你用爬虫还是批量下载?
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-7-30 14:21:08
4# kuhasu

我不会爬虫,批量下又不会解析HTML,就是整篇复制粘贴,然后用RQDA编码后分析。如果有解析HTML的方法请交流一下,我目前只掌握了XML解析方法。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

2010-7-30 17:28:11
bensonwu 发表于 2010-7-30 14:21
4# kuhasu

我不会爬虫,批量下又不会解析HTML,就是整篇复制粘贴,然后用RQDA编码后分析。如果有解析HTML的方法请交流一下,我目前只掌握了XML解析方法。
html一向比较麻烦,尤其广告部分。可以考虑爬虫。java的或者c的。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群