论文部分内容阅读
随着计算机技术的不断发展与应用,数字化的文本数量不断增长,互联网的发展更加剧了数字文本的膨胀。本文的目标就是在我国互联网资源急剧增长的背景下,为了有效地挖掘中文Web文本信息资源,针对传统文本表示模型应用于中文文本的不足和传统文本聚类方法处理高维文本对象时运行效率低的缺陷,以及中文文本需要进行分词等困难,根据网页文本对象的特殊性和中文语言自身特点,尝试从中文Web文本聚类过程的不同阶段入手,研究中文Web文本聚类分析技术。在预处理阶段,为了能够提供准确表达网页主题信息的去噪网页或文本,在分析现有不同网页主题信息提取或网页去噪方法的基础上,针对这些方法需要不同程度地依赖网页结构和视觉特征的缺陷,本文提出了一种新的提取方法,即基于正文特征的网页主题信息提取方法。实验结果表明,这种方法无论在主题信息提取的准确率,还是主题信息提取完整性,结果都比较好。根据中文语言自身特点,把中文信息处理的基础技术——中文自动分词纳入研究内容之一。词语粗分是分词后续处理的基础和前提,直接影响到分词系统最终的准确率和召回率。针对目前常用分词方法单一使用时存在的不足,综合机械分词的高效性和统计分词的灵活性,本文设计了一种最短路径的二元语法中文词语粗分模型。实验结果表明,此粗分模型无论在封闭测试和开放测试中,还是在不同粗分模型对比测试和不同领域的开放测试中,都有较好的句子召回率。在文本表示阶段,传统文本表示模型应用较为广泛的是基于词集的向量空间模型(Vector Space Model,VSM),在构建VSM中,仅仅考虑利用文档中单个词的信息,而忽略了对聚类来说更重要的词之间的关系和顺序信息。针对VSM表示文本的不足和文本信息自身特征,本文提出了一种新的文本表示模型,即短语相关文档模型(Phrase Related Documents Model,PRDM)。在模型中,PRDM使用具有上下文信息的N-grams短语来表达文档和文档关系,能够更准确地聚集相似文档。在文本聚类阶段,针对传统文本聚类方法处理高维文本对象时运行效率低和需要初始化参数的缺陷,本文提出了一种新的中文文本聚类方法,即基于N-grams短语的中文文本聚类方法。该方法在PRDM的基础上,构建文档相关文档模型(Document Related Documents Model,DRDM);然后在DRDM的基础上,计算文档相似度;最后聚集相关文档(相似文档),得到“物以类聚”的结果。通过实验对比,N-grams短语方法无论在查准率、查全率,还是F值、聚类用时,都比k-均值算法和AHC算法有更好的性能表现。