基于聚类分析的中文新闻网页关键词提取方法研究

被引量 : 0次 | 上传用户:wi7474974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的到来,在线文档急剧增长,“信息爆炸”成为这个时代的主要特征。关键词作为对文章内容的简要概括,可以辅助快速了解文章内容,节省浏览时间。同时,关键词在信息检索,自动摘要,文本聚类/分类也起很大的作用。因此,关键词提取技术成为解决此类问题的关键技术。关键词可以认为是一篇文章中比较重要而且主题关联较凝聚的词的集合,基于这一思想,本文将词语看作具有隐含的多重关系属性,综合利用词语之间多重属性,按照主题凝聚的原则采用聚类方法提取出与反映主题信息的关键词。为此,设计有效的利用聚类算法提取新闻网页的关键词成为本文的研究核心。本文的主要工作如下:(1)在介绍经典聚类方法的思想、原理及实现的基础上,理论和实验分析其在关键词提取上的优势和应用前景。(2)针对层次聚类算法的优势及关键词提取领域现有的不足,利用词语间语义相似度作为聚类距离,形成算法基于聚类分析的关键词提取算法KECA。此算法利用层次聚类及借助语义角度分析文本中的重要词语不仅有效可行而且弥补了机械的统计方法的不足。同时,杜绝了机器学习方法所面临的局限性和缺少标注语料库的困难。(3)针对层次聚类方法难以有效处理关键词提取中的“孤立点”问题,引入密度聚类算法。聚类过程密度的度量采用词语的共现属性,自适应地发现任意形状的类别,形成KEDC算法。同时为了提高关键词提取的质量,对单纯采用强共现属性的聚类结果进行补充和剪枝:计算未被聚进去词语对整个文档的关联强度和语义连接强度,对聚类结果进行补充;剪枝的过程就是除去那些虽因强共现属性而被聚进簇中但却不是关键词的词语。理论和实验均表明了以上所提两种算法的有效性。
其他文献
虚拟化技术起源于大型机。早在上世纪60年代,IBM公司就发明了一种操作系统虚拟机技术,它在已有的计算机层次上新增虚拟中间层,截获上层软件对底层接口的调用,并对该调用重新
原发性开角型青光眼(primary open angie glaucoma,POAG)是由于眼压升高导致视神经损害和视野缺损的一组发病率和致盲率都很高的眼病。虽然原发性开角型青光眼的发病率在我国
伴随着公司的扩张与发展,企业集团逐步形成,并日益发展成为最重要的企业组织形式,集团公司的管理与控制问题也成为现代企业管理面临的一道世界性难题。对集团人力资源管控相
<正>为准确判定、及时整改化工和危险化学品生产经营单位重大生产安全事故隐患(以下简称重大隐患),有效防范遏制重特大事故,根据《安全生产法》和《中共中央国务院关于推进安
会计信息的决策有用性是指伴随某项新信息的发布或某会计数据集的披露,资本市场对其作了显著反应,说明该信息向市场传递了新的有用的信息,即该信息具有决策有用性。财政部在2
由于高血压患者自主神经功能紊乱,胃肠道蠕动功能减弱,粪便在肠道内停留时间过长,因此,极易发生便秘.对于长期住院的患者而言,便秘的发生率可高至80%[1].而高血压术后脑出血
北京作为一线城市,它的健身市场开始变得相对成熟,顾客的价格和价值意识不断增强,客户越来越想得到他们真正需要的东西。中国健身业的营销起步较晚,营销战略也没有形成有效的
随着键合铜丝专用封装设备的应用和键合工艺的完善,而且键合铜丝以良好的机械性能、成本低廉、电导率高等优势必将成为替代键合金丝和铝-硅丝的理想材料。因此,适应高密度、
蛋白质相互作用网络是计算机科学技术的一个新研究领域。蛋白质功能预测是蛋白质相互作用网络富有挑战性的问题之一。它的研究不仅可以直接阐明生命体在生理或病理条件下的变