论文部分内容阅读
随着信息技术的高速发展,文本信息的数量正以几何速度飞速增加,如何在这些海量的文本信息中快速的获得自己有用的信息,并且合理的管理和使用这些文本信息,已经成为当今亟待解决的问题。合理的利用数据挖掘技术,能够有效的解决这一问题。文本聚类和文本关键词提取是文本挖掘领域中重要的研究内容。文本聚类将文本集分成若干个类,要求同一类中的文本之间相似度较大,而不同类的文本之间的相似度较小。文本聚类作为一种无监督的机器学习方法,不需要训练集,不需要事先知道聚类个数,因此具有一定的灵活性和现实性。文本关键词提取是处理文本信息的重要技术之一,是文本自动分类、自动聚类、自动摘要生成等文本信息处理的前提和基础。本文介绍了文本聚类和文本关键词提取的研究背景、研究意义、国内外研究现状和相关的理论知识。本文在总结之前国内外经典的文本聚类和关键词提取研究的基础上,分别提出了文本聚类和文本关键词提取的新方法,具体工作包括以下两个方面:1.提出一种基于复杂网络社团划分的文本聚类方法,首先提出了一种加权复杂网络社团划分的新算法,通过不断寻找复杂网络中的稠密集并对其进行适当操作,达到了划分加权复杂网络的目的。其次将该算法应用于文本聚类,将文本用向量空间模型表示,用余弦公式计算文本之间的相似度,根据邻居节点构造出加权复杂网络,用本文提出的算法对加权复杂网络进行社团划分。最后,对Reuters-21578数据集中的部分样本进行聚类,实验表明该方法具有良好的聚类效果。2.提出一种基于加权复杂网络的文本关键词提取方法,通过分析已有的基于复杂网络的关键词提取算法的特点和不足,提出了一种基于加权复杂网络的文本关键词提取新算法。首先根据文本特征词之间的关系构建文本的加权复杂网络模型,其次通过节点的加权聚类系数和节点的介数计算节点的综合特征值,最后根据综合特征值提取出文本关键词。实验结果表明,该算法提取的关键词能够很好的体现文本主题,提取关键词的准确率比已有算法要高。