摘要:信息时代使得存贮大量的数据变得容易。在万维网、内联网、新闻专线以及其他地方可以利用的文件的增长趋势是压倒一切的。尽管我们可以利用的数据的数量在持续地增加,但是我们吸收和处理这些信息的能力并未能同步增加,而搜索引擎只要通过几个按键就可以获得越来越多的信息,越来越多的文件则进一步加剧了这个矛盾。文本挖掘是一个新的激动人心的领域,通过利用源自数据挖掘、
机器学习、自然语言处理、信息检索以及知识管理等技术来试图解决信息超负荷的问题。文本挖掘涉及了文件收集的预处理(文本分类、信息析取、术语析取)、中间表示的存贮、分析这些中间表示的技术(例如:分布分析、集群、趋势分析、关联规则以及结果的可视化)。http://www.cqvip.com//QK/88019X/200803/27092509.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)