论文部分内容阅读
语料库与自然语言信息处理有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,它的建设和应用一直是语言处理领域的重要论题之一。目前我国在中文语料库的建设和应用上取得了不少的成果,其中一些也可以利用在文本分类领域。但随着信息处理技术的快速发展,语言信息处理领域内的各类应用需要大量的专业性强的文本分类语料库,而传统的语料库构建方法在时效性、专业性等方面并不能完全满足这些需求,因此文本分类语料库的构建已经成为一个十分重要的研究课题。本文主要研究并优化了一种自动构建中文文本分类语料库的方法,具体工作主要包括以下几个方面:1、分析研究了一个计算机语料库自动构建原型系统,熟悉理解了计算机语料库的相关理论以及该自动构建系统的设计思想与具体实现方法,在研究分析的基础上总结出了针对该原型系统的一些优化思路。2、研究并实现了一种基于网页密度特征的正文抽取方法。该方法通过将网页解析成文本块集,并计算所有文本块的密度特征后,使用决策树算法构建文本块的分类预测模型,然后根据这个分类模型识别分类网页的文本块,从而过滤出识别为正文块的文本块,构建成网页的正文信息。3、分析了网页消重的相关技术及现有的网页消重算法并简单比较了它们的优缺点,最后研究了一个基于Shingling的网页消重改进方法。该改进方法通过抽取网页的正文信息并转换成相应的文本文档,再利用词性属性提取出有实际语义的实词来表示文档,最后根据表示文档的特征项集合的元素个数之间的比值将待计算相似度的文本文档进行粗分,避免不可能相似的文档之间的相似度计算,从而提升文档集中的相似度计算性能。4、根据原型系统的优化思路将本文研究实现的网页正文抽取方法与改进的消重算法应用于该计算机语料库自动构建原型系统,并对优化后的系统进行了一定的分析与实验。从分析与实验结果可知,通过优化后的计算机语料库自动构建系统得到的文本分类语料库具有较高的准确度,在文本分类应用中有着良好的效果。