论文部分内容阅读
文本摘要、分类、聚类和检索是文本处理领域中的重要技术。本文结合若干具体科研项目,在上述几个方面进行了研究和探索。在文本摘要技术方面,本文实现了一个简单的文本摘要工具,分析了相应算法和实验结果,并对存在的问题进行了讨论。在文本分类技术方面,本文实现了一个基于多词频关联规则的文本分类器,并对实现方案提出了改进,对原方案和改进方案进行了实验比对和实验分析。该分类器使用的关联规则考虑了文本数据中关键字重复出现的事实,并对训练阶段产生的关联规则进行修剪,采用树形结构来组织关联规则,分类的质量和速度均较好。在文本聚类技术方面,本文设计了一个针对BBS语料的聚类算法,用来对BBS上讨论的热点话题进行识别和跟踪。BBS语料极其不规范并且数据量巨大,故要求算法具有良好的健壮性和良好的时间效率。实验结果表明基于该算法的系统符合上述要求。在文本检索技术方面,本文将检索技术应用于生物信息学的序列比对领域。生物序列可以看成全文的一种,本文将全文检索的互关联后继树模型结合生物序列的精确局部比对算法OASIS,发展出OASISirst算法,在保持搜索结果精度和排序的前提下,加快了搜索速度,并且减小了膨胀比,提高了实用性。本文实现了OASIS和OASISirst算法,对两者的性能进行了比较,开发出一个基于OASISirst算法的实用工具,并配有界面演示。