论文部分内容阅读
2013年1月,中国互联网络信息中心发布了《第31次中国互联网络发展状况统计报告》,其数据显示当前互联网的信息量以惊人的速度持续增长。在这些海量数据当中,80%以上的信息是以非结构化或半结构化的文本形式存在,蕴含着丰富潜在价值的知识。因此,能够快速从Web中发现有价值知识的文本聚类方法,成为了当今的研究热点。目前,基于向量空间模型的文本聚类方法由于其向量高维稀疏的问题,使得这种方法的聚类效果达到了瓶颈,很难再有所提高。而很多基于语义概念模型文本聚类方法的研究并没有区分文本的种类,缺少对Web中文文本聚类与普通文本聚类区别与联系的深入分析,导致其应用到Web文本时效率不高甚至不能直接在Web文本聚类中使用。
本文从中文文本聚类方法的研究现状出发,总结分析其中的关键性技术。在此基础上,针对Web中文文本聚类与普通文本聚类的区别与联系及其面临的挑战,本文采用语义分析方法深入研究面向Web中文文本的聚类
方法:
(1)深入研究知网的组成结构,提出一种综合考虑时间效率与义原关系的概念相似度计算方法,降低计算复杂度并保证结果的合理性。
(2)研究分析Web文本的结构,定义标签特征集与正文特征集。采用特征集语义聚类方法对两者进行聚类,得到两个特征集合中更加符合文本内容的词语。
(3)提出一种基于标签特征集重要性与TF-IDF的改进算法,通过该算法将文本表示为选取的标签特征集与正文特征集的并集。在其基础上,提出一种结合语义以及Web文本特点的Web中文文本、文本簇的表示模型,给出构建模型的方法。定义基于该模型的相似度并给出计算方法。
(4)通过分析Web文本聚类算法的相关难点,提出一种基于知网语义的Web中文文本聚类算法C2HN。该算法是对最近邻聚类算法的改进,以相似度阈值控制聚类的迭代次数,自动创建文本簇特征,将文本聚类方法量化,便于计算机的识别处理。
最后对本文方法进行实验分析与对比,实验结果表明:本文提出的方法适用于Web中文文本聚类,在特征维度、计算复杂度、聚类效果等方面有明显改善。