基于词共现的关键词抽取算法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:alanzou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,海量的信息涌向网络。我们需要用“大数据”来表示需要同时进行批量处理或分析的种类繁多的大量数据集,数据的计量单位从TB发展到PB甚至到DB,处理数据的速度同时需要更快。因此,如何有效并且快速的获取关键数据,变得非常重要。在文本中,我们关注的关键数据,体现在文章关键词或者是关键短语。这些关键词和关键短语可以有效的概括反映文章的主题思想。与此同时,随着门户网站的大量兴起,网络用户接触到的新闻量非常庞大,如何从海量的新闻中获取感兴趣的新闻也是一个热点问题。本文的研究重点就是如何抽取文章中的关键词以及利用抽取出的关键词向用户推荐新闻。本文的研究内容主要有以下两个方面:(1)提出一种基于词共现的关键词抽取算法。该算法无需训练集训练,能够直接从文档中提取出关键词。与之区别的是有监督的机器学习算法,该类算法需要训练集,通过训练集构造分类器,应用分类器抽取测试集中的关键词。算法将关键词抽取大致分为三个步骤:候选词定义,候选词权重计算和最终关键词选择。算法中,我们选择优质候选词,并选择高效科学的特征来计算权重。通过以上的处理,提高所抽取关键词的效果并且优化效率。同时,我们还设计了一个基于本文算法基础上的原型系统。(2)提出一种基于领域本体的个性化新闻推荐算法,该算法通过新闻领域本体库这一中间桥梁,计算新闻关键词和用户兴趣之间的相似度,根据相似度的高低推荐给用户其感兴趣的新闻。同时,算法根据用户对已推荐新闻的阅读信息实时的更新用户对每个兴趣的兴趣值。
其他文献
<正>正方体的展开与折叠问题是初中数学中的常见问题.这类问题对学生的空间想象能力提出了较高的要求,本文总结了几种方法,与大家分享.我们知道正方体的展开图共有11种.它们
企业管理中心与生产管理需要各方面的配合,要做好企业内部各部门各工作岗位的协调,同时要做好企业外部的信息与资源的合理调配与运用,最终形成精益生产管理的优质成效。本文
目的了解吉林市三甲医院ICU护理人员道德困境、职业倦怠的现状,并提出解决问题的方法。方法对吉林市5家三甲医院随机选取ICU护理人员进行道德困境和职业倦怠的问卷调查。结果
分子泵是半导体、真空镀膜等行业的基础关键设备,其技术和市场长期为国外巨头所垄断。本文针对其研发和应用中所存在的部分难点问题,包括泵体与轴承的散热、振动和噪声的抑制
民宿作为现代酒店的鼻祖,其乡土文化表达形式的研究,是旅游经济学中的重要组成部分,同时对民宿的经久发展具有重要的现实意义。"民宿"乡土文化的表达,是其理性开发,传承和保
目的研究环孢素联合十一酸睾酮对慢性再生障碍性贫血患者T辅助细胞水平的影响。方法选择在该院接受治疗的慢性再生障碍性贫血患者86例作为研究对象,根据患者治疗方案不同分为
Hashtag是用户标注在微博中的主题标签,利用Hashtag能够提高微博中信息组织和信息检索的效率,因此研究Hashtag的基础特性、生成技术、聚类和分类等技术具有重要意义。然而大
[目的]探讨健康教育在急诊留观病人中的应用效果。[方法]针对100例急诊留观病人的不同疾病,采取有目的性的健康教育形式进行持续健康教育。[结果]对留观病人及其家属实施健康
传统手工技艺类非物质文化遗产是指手工艺人纯手工或者利用一定工具手工制作出的,具有实用性、创造性和观赏性且被人们视为文化遗产的技艺以及制作出来的产品。它在非物质文
作为世界非物质文化遗产项目的古琴艺术,一方面要保护和传承好历史留给我们的丰富财产,将三千多首琴曲进行有效整理和挖掘,这是大家共同的责任;另一方面,音乐艺术作为人类文