基于聚类分析的中文新闻网页关键词提取方法研究

被引量 : 0次 | 上传用户：wi7474974

【摘要】

：

随着网络时代的到来,在线文档急剧增长,“信息爆炸”成为这个时代的主要特征。关键词作为对文章内容的简要概括,可以辅助快速了解文章内容,节省浏览时间。同时,关键词在信息

【作者】

：

尹倩

【发表日期】

：

2009年期

【关键词】

：

聚类关键词提取语义相似度词共现

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络时代的到来,在线文档急剧增长,“信息爆炸”成为这个时代的主要特征。关键词作为对文章内容的简要概括,可以辅助快速了解文章内容,节省浏览时间。同时,关键词在信息检索,自动摘要,文本聚类/分类也起很大的作用。因此,关键词提取技术成为解决此类问题的关键技术。关键词可以认为是一篇文章中比较重要而且主题关联较凝聚的词的集合,基于这一思想,本文将词语看作具有隐含的多重关系属性,综合利用词语之间多重属性,按照主题凝聚的原则采用聚类方法提取出与反映主题信息的关键词。为此,设计有效的利用聚类算法提取新闻网页的关键词成为本文的研究核心。本文的主要工作如下:(1)在介绍经典聚类方法的思想、原理及实现的基础上,理论和实验分析其在关键词提取上的优势和应用前景。(2)针对层次聚类算法的优势及关键词提取领域现有的不足,利用词语间语义相似度作为聚类距离,形成算法基于聚类分析的关键词提取算法KECA。此算法利用层次聚类及借助语义角度分析文本中的重要词语不仅有效可行而且弥补了机械的统计方法的不足。同时,杜绝了机器学习方法所面临的局限性和缺少标注语料库的困难。(3)针对层次聚类方法难以有效处理关键词提取中的“孤立点”问题,引入密度聚类算法。聚类过程密度的度量采用词语的共现属性,自适应地发现任意形状的类别,形成KEDC算法。同时为了提高关键词提取的质量,对单纯采用强共现属性的聚类结果进行补充和剪枝:计算未被聚进去词语对整个文档的关联强度和语义连接强度,对聚类结果进行补充;剪枝的过程就是除去那些虽因强共现属性而被聚进簇中但却不是关键词的词语。理论和实验均表明了以上所提两种算法的有效性。

其他文献

Xen虚拟机间通信优化研究与实现

虚拟化技术起源于大型机。早在上世纪60年代,IBM公司就发明了一种操作系统虚拟机技术,它在已有的计算机层次上新增虚拟中间层,截获上层软件对底层接口的调用,并对该调用重新

学位

Xen虚拟机虚拟机间通信VT优化

针灸治疗对原发性开角型青光眼患者的眼压、视野及临床症状的影响

原发性开角型青光眼(primary open angie glaucoma,POAG)是由于眼压升高导致视神经损害和视野缺损的一组发病率和致盲率都很高的眼病。虽然原发性开角型青光眼的发病率在我国

学位

针灸原发性开角型青光眼眼压视野症状

基于总部价值创造的企业集团人力资源管控模式研究

伴随着公司的扩张与发展,企业集团逐步形成,并日益发展成为最重要的企业组织形式,集团公司的管理与控制问题也成为现代企业管理面临的一道世界性难题。对集团人力资源管控相

学位

总部价值创造企业集团人力资源管控模式

《化工和危险化学品生产经营单位重大生产安全事故隐患判定标准(试行)》解读(上)

<正>为准确判定、及时整改化工和危险化学品生产经营单位重大生产安全事故隐患(以下简称重大隐患),有效防范遏制重特大事故,根据《安全生产法》和《中共中央国务院关于推进安

期刊

危险化学品重大危险源安全生产管理《化工和危险化学品生产经营单位重大生产安全事故隐患判定标准(试行)》紧急停车系统生产经营单位判定标准安全事故隐患

会计信息决策有用性研究

会计信息的决策有用性是指伴随某项新信息的发布或某会计数据集的披露,资本市场对其作了显著反应,说明该信息向市场传递了新的有用的信息,即该信息具有决策有用性。财政部在2

学位

会计准则投资机会集价值相关性

耳穴埋豆对高血压脑出血患者术后便秘的护理疗效分析

由于高血压患者自主神经功能紊乱,胃肠道蠕动功能减弱,粪便在肠道内停留时间过长,因此,极易发生便秘.对于长期住院的患者而言,便秘的发生率可高至80%[1].而高血压术后脑出血

期刊

耳穴埋豆高血压脑出血便秘护理

碳减排:正义原则与对策

期刊

碳减排低碳发展全球气候变化原则与对策

STP战略在商业健身俱乐部中的应用

北京作为一线城市,它的健身市场开始变得相对成熟,顾客的价格和价值意识不断增强,客户越来越想得到他们真正需要的东西。中国健身业的营销起步较晚,营销战略也没有形成有效的

学位

健身俱乐部STP战略市场细分目标市场选择市场定位

高性能键合铜丝的制备及其球键合工艺研究

随着键合铜丝专用封装设备的应用和键合工艺的完善,而且键合铜丝以良好的机械性能、成本低廉、电导率高等优势必将成为替代键合金丝和铝-硅丝的理想材料。因此,适应高密度、

学位

高性能键合铜丝断线室温性能表面质量球键合

基于聚类算法和相互作用网络的蛋白质功能预测研究

蛋白质相互作用网络是计算机科学技术的一个新研究领域。蛋白质功能预测是蛋白质相互作用网络富有挑战性的问题之一。它的研究不仅可以直接阐明生命体在生理或病理条件下的变

学位

PPI网络聚类方法蚁群算法蛋白质功能预测孤立蛋白序列比对

基于聚类分析的中文新闻网页关键词提取方法研究

与本文相关的学术论文