论文部分内容阅读
文档集自动综述系统是自然语言理解领域中的一个重要的研究方向。近年来,随着互联网的普及,网上的信息越来越多,为人们提供了丰富的信息资源。目前人们主要是通过搜索引擎获得自己需要的信息,但搜索引擎返回来的相关文档太多,而且有大量是重复和相似的,这样人们就不能快速获得自己真正所需要的信息。文档集自动综述方法研究的目标正是力求解决这一问题,直接给用户提供简洁的、信息全面的文档,以提高用户获取信息的效率。
本文研究的重点是中文文档集自动综述系统的几个关键技术:包括文本分段、文木段聚类、向量空间模型的相似度计算等。在传统向量空间模型的基础上提出了一种利用关联词典计算文档间语义相似度的方法。所实现的文档集自动综述系统具有领域无关、无需训练、易于实现、在现有框架下易于扩展等特点。
在详细介绍了向量空间模型及特征项的选择和项的权重计算之后,提出了一种使用关联词典的相似度计算方法。设计思路是从词在文档中的发生频率来计算词与词之间的相关性从而由大规模语料中自动获取关联度矩阵R,通过关联度矩阵来计算文档间的语义相似度。这种方法考虑了词与词之间的语义相似信息,因此能够解决其他相似度计算中存在的问题,这种方法相比于利用概念分类词典将期望有更高的准确率。
文本分段借鉴了TextTiling算法,比较文本中每一点处的前后一定大小的文本块中的词频分布,如果这一点处出现了前后很不相同的分布,可以认为在这里出现了主题转换,也就是一个语义段的切换处。因此,可以将该点相应标示为段落的分界点。
文本聚类过程的输入是一个语义段的集合,聚类所处理的基本单元是这些段,而不再考虑该段原来属于哪个文档(但是这个信息会记录在段的属性中)。聚类得到的结果是一些类。每个类中的段认为它们的内容相似,因此一个段就对应了文档集叙述的某个主题。在自动综述系统中,综合速度和性能因素,采用完全联结的聚类算法。
本文最后介绍了综述生成的方法和实验结果。