论文部分内容阅读
文本关键词自动提取算法可分为基于统计的方法,基于词语共现图的方法,基于词语网络的方法三种。基于统计中最基础的词频统计方法是选出文档中词频最高的几个词语作为关键词。该方法简单快速,但无法提取出含有文档中心内容但频率不高的词。基于词语共现图的方法需要设定的参数过多,常会造成边界上的取舍问题,算法的稳定性和精度很难控制。基于词语网络的方法是以文档词语网络模型的平均路径长度或聚类系数为关键词自动提取依据。平均路径长度或聚类系数理论以连通图为基础,故对非连通的文档模型,正确衡量顶点的重要性成为困难。随着网络技术发展,网页信息日益增多,为了管理网页信息,常需要对网页进行分类。人工分类已无法满足需求,很多的网页自动分类技术已被提出。网页分类技术主要应用于搜索引擎,信息检索,舆情内容监管,网站管理等方面。本文针对文本关键词自动提取技术中存在的问题,结合网页分类的需求,研究了以下内容:1.基于词语网络模型的文本关键词自动提取;2.使用网页关键词进行特征选择对网页向量模型降维,再对网页进行分类。主要取得了以下研究成果:(1)提出一种基于词语网络的文本关键词自动提取策略:修改平均路径长度和聚类系数理论,定义网络平均逆路径长度和有效聚类系数指标,使其适应非连通图。在词语网络关键词自动提取算法的关键节点选择步骤中使用节点删除指标来衡量词语重要性,综合考虑节点删除后对文档词语网络模型的两个新定义指标造成的损失。实验结果表明该指标比现有指标更好衡量词语网络节点的重要性。(2)提出基于词语相似度的中文分词策略:中文词语常有多词同义形象,词语相似度即为两个词语意义相同的程度。词与其本身相似度为1。本文根据实验结果给定一阈值,在分词过程中,如果两个或多个词语间相似度高于该阈值,就对其作为一个词进行处理。该分词策略能有效提高关键词自动提取的准确率。(3)使用网页的关键词进行特征选择,能有效降低网页文档向量模型的维数。在实验中与其他特征选择算法进行降维后的分类结果相比较,关键词特征选择具有一定的可行性。本文在对词语网络指标新定义基础上选择关键节点使自动提取的关键词更准确。使用关键词来进行网页分类过程中的特征选择也使文档的向量空间模型降维过程损失的信息量更少,分类结果比较理想。