经管之家App
让优质教育人人可得
立即打开
全部版块
我的主页
›
论坛
›
数据科学与人工智能
›
数据分析与数据科学
›
SAS专版
Text Mining新书(Matlab)
楼主
zgp480
1811
1
收藏
2014-05-26
关于Text Mining的书,一步一步,图文并茂。可惜找不到用SAS而且有这么详细和分量的书籍。
https://bbs.pinggu.org/thread-3045325-1-1.html
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
全部回复
沙发
zgp480
2014-5-26 05:02:25
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 About Text Mining and MATLAB . . . . . . . . . . . . . . . . . . . 2
1.2 About this Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 A (Very) Brief Introduction to MATLAB . . . . . . . . . . . . . . 6
1.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Part I Fundamentals
2 Handling Textual Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1 Characters and Character Arrays . . . . . . . . . . . . . . . . . . . . . 15
2.2 Handling Text with Cell Arrays . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Handling Text with Structures . . . . . . . . . . . . . . . . . . . . . . . 21
2.4 Some Useful Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.5 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3 Regular Expressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.1 Basic Operators for Matching Characters. . . . . . . . . . . . . . . . 33
3.2 Matching Sequences of Characters . . . . . . . . . . . . . . . . . . . . 36
3.3 Conditional Matching . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.4 Working with Tokens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4 Basic Operations with Strings . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1 Searching and Comparing . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Replacement and Insertion. . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3 Segmentation and Concatenation . . . . . . . . . . . . . . . . . . . . . 60
4.4 Set Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.5 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.6 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5 Reading and Writing Files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1 Basic File Formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.2 Other Useful Formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.3 Handling Files and Directories . . . . . . . . . . . . . . . . . . . . . . . 101
5.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.5 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Part II Mathematical Models
6 Basic Corpus Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.1 Fundamental Properties . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
6.2 Word Co-Occurrences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
6.3 Accounting for Order . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
6.5 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
6.6 Short Projects. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
7 Statistical Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.1 Basic n-Gram Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
7.2 Discounting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
7.3 Model Interpolation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
7.4 Statistical Bag-of-Words . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
7.5 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
7.6 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
7.7 Short Projects. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
8 Geometrical Models . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
8.1 The Term-Document Matrix . . . . . . . . . . . . . . . . . . . . . . . . 175
8.2 The Vector Space Model. . . . . . . . . . . . . . . . . . . . . . . . . . . 183
8.3 Association Scores and Distances . . . . . . . . . . . . . . . . . . . . . 192
8.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199
8.5 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
8.6 Short Projects. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
9 Dimensionality Reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
9.1 Vocabulary Pruning and Merging . . . . . . . . . . . . . . . . . . . . . 205
9.2 The Linear Transformation Approach . . . . . . . . . . . . . . . . . . 211
9.3 Non-linear Projection Methods. . . . . . . . . . . . . . . . . . . . . . . 222
9.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
9.5 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
9.6 Short Projects. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
Part III Methods and Applications
10 Document Categorization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
10.1 Data Collection Preparation . . . . . . . . . . . . . . . . . . . . . . . . . 237
10.2 Unsupervised Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
10.3 Supervised Classification in Vector Space . . . . . . . . . . . . . . . 252
10.4 Supervised Classification in Probability Space . . . . . . . . . . . . 260
10.5 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
10.6 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
10.7 Short Projects. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276
11 Document Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
11.1 Binary Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
11.2 Vector-Based Search. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289
11.3 Cross-Language Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296
11.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
11.5 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
11.6 Short Projects. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
12 Content Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
12.1 Dimensions of Analysis. . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
12.2 Polarity Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
12.3 Property Extraction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329
12.4 Further Reading . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
12.5 Proposed Exercises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
12.6 Short Projects. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345
References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
扫码加我 拉你入群
请注明:姓名-公司-职位
以便审核进群资格,未注明则拒绝
相关推荐
MATLAB6实例教程,MATLAB6实例教程 _ 郝红伟编著_ - 北京_ 中国电力出版社
MATLAB R2006a (2006版)HTTP下载
请问大神们,我已经下载了matlab的杜宾模型程序,但不知道如何运用啊,求指导.....
Text Mining with MATLAB
Springer.Text Mining with MATLAB.2013.rar
Matlab新书:Text Mining with Matlab
Matlab新书:Text Mining with Matlab
怎么在MATLAB上添加一个随图片缩放而位置不变的text?请大师指导!
[Rafael E. Banchs] Text Mining with MATLAB
matlab空间计量包输入的数据
栏目导航
SAS专版
经管文库(原现金交易版)
休闲灌水
金融实务版
行业分析报告
经管高考
热门文章
你的SSCI发表焦虑,AI真的能懂吗?——一篇 ...
CDA数据分析脱产就业班于2025年08月02日开班 ...
数生万物,转型之本:数据资产运营白皮书-毕 ...
Machine-Learning-Tom-M.-Mitchell中文版.p ...
2025年中国城市可信数据空间行业研究报告
十四五能源发展成就报告
《统计分析与spss的应用(第五版)》数据.r ...
生成式人工智能应用发展报告(2025)
上海黄金及贵重金属月、日交易文件2002-202 ...
全球世界各国地区黄金储备量2000-2050831季 ...
推荐文章
AI狂潮席卷学术圈,不会编程也能打造专属智 ...
10月重磅来袭|《打造Coze/Dify专属学术智能 ...
最快1年拿证,学费不足5W!热门美国人工智能 ...
关于如何利用文献的若干建议
关于学术研究和论文发表的一些建议
关于科研中如何学习基础知识的一些建议 (一 ...
一个自编的经济学建模小案例 --写给授课本科 ...
AI智能体赋能教学改革: 全国AI教育教学应用 ...
2025中国AIoT产业全景图谱报告-406页
关于文献求助的一些建议
说点什么
分享
微信
QQ空间
QQ
微博
扫码加好友,拉您进群
各岗位、行业、专业交流群