论文部分内容阅读
随着统计自然语言处理技术的快速发展,文本分割日益成为一个重要的研究方向,并在多个应用领域发挥愈来愈大的作用。TextTiling算法作为一种以词汇链为基础的文本分割方法以其较好的性能一直被广大研究者用做算法研究和比较的对象。本文以该算法为基础,实现对中文文档进行文本分割。
本论文讨论了文本分割领域中文档结构,文档粒度,子话题等基本的概念和理论,并依据这些理论介绍了最大熵方法、基于词链方法、检查话题边界的方法等文本分割的方法。本文介绍了中文语料库的构建过程,对文本分割进行评价的准确率和召回率方法、F-measure方法、Pμ评价方法等。其中重点介绍了Pμ评价方法对文本分割的评价策略,“正错误”,“负错误”的概念,以及该方法的优缺点。
本文详细介绍了TextTiling算法基于词汇链的理论基础,并分析了该算法的三个主要步骤:对文本进行单位长度划分(Tokenization)、相似度计算、分割点选择。之后对算法中的主要参数作了相关实验,并分析了算法的分割性能与文档划分单位、深度值、平滑计算的关系。本文使用准确率和召回率方法,Pμ评价方法对中文文档的文本分割结果进行评价,研究评价结果与分割点数目,分割点分布之间的关系。