摘要:网页爬虫是通过网页链接地址自动发现和采集网页的一个应用程序,它是自然语言处理技术的基础。随着藏文信息化的发展,藏文网页爬虫的设计和实现显得尤为重要。文章主要研究对藏文网页进行编码识别、网页抓取、编码转换为统一国际编码以及更新所收集的藏文文档,设计了藏文网页爬虫策略。http://www.cqvip.com//QK/89824X/201209/688886876201209024.html
送人玫瑰,手留余香~如您已下载到该资源,可在回帖当中上传与大家共享,欢迎来CDA社区交流学习。(仅供学术交流用。)