论文部分内容阅读
随着网络时代的到来,在线文档急剧增长,“信息爆炸”成为这个时代的主要特征。关键词作为对文章内容的简要概括,可以辅助快速了解文章内容,节省浏览时间。同时,关键词在信息检索,自动摘要,文本聚类/分类也起很大的作用。因此,关键词提取技术成为解决此类问题的关键技术。关键词可以认为是一篇文章中比较重要而且主题关联较凝聚的词的集合,基于这一思想,本文将词语看作具有隐含的多重关系属性,综合利用词语之间多重属性,按照主题凝聚的原则采用聚类方法提取出与反映主题信息的关键词。为此,设计有效的利用聚类算法提取新闻网页的关键词成为本文的研究核心。本文的主要工作如下:(1)在介绍经典聚类方法的思想、原理及实现的基础上,理论和实验分析其在关键词提取上的优势和应用前景。(2)针对层次聚类算法的优势及关键词提取领域现有的不足,利用词语间语义相似度作为聚类距离,形成算法基于聚类分析的关键词提取算法KECA。此算法利用层次聚类及借助语义角度分析文本中的重要词语不仅有效可行而且弥补了机械的统计方法的不足。同时,杜绝了机器学习方法所面临的局限性和缺少标注语料库的困难。(3)针对层次聚类方法难以有效处理关键词提取中的“孤立点”问题,引入密度聚类算法。聚类过程密度的度量采用词语的共现属性,自适应地发现任意形状的类别,形成KEDC算法。同时为了提高关键词提取的质量,对单纯采用强共现属性的聚类结果进行补充和剪枝:计算未被聚进去词语对整个文档的关联强度和语义连接强度,对聚类结果进行补充;剪枝的过程就是除去那些虽因强共现属性而被聚进簇中但却不是关键词的词语。理论和实验均表明了以上所提两种算法的有效性。