基于语义的关键词提取算法

来源 :计算机科学 | 被引量 : 0次 | 上传用户:doraemon1226
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词1提供了文档内容的概要信息,它们被使用在很多数据挖掘的应用中。在目前的关键词提取算法中,我们发现词汇层面(代表意思的词)和概念层面(意思本身)的差别导致了关键字提取的不准确,比如不同语法的词可能有着相同的意思,而相同语法的词在不同的上下文有着不同的意思。为了解决这个问题,这篇文章提出使用词义代替词并且通过考虑关键候选词的语义信息来提高关键词提取算法性能的方法。与现有的关键词提取方法不同,该方法首先通过使用消歧算法,通过上下文得到候选词的词义;然后在后面的词合并、特征提取和评估的步骤中,候选词义之间的语义相关度被用来提高算法的性能。在评估算法时,我们采用一种更为有效的基于语义的评估方法与著名的Kea系统作比较。在不同领域间的实验中可以发现,当考虑语义信息后,关键词提取算法的性能能够得到很大的提高。在同领域的实验中,我们的算法的性能与Kea++算法的相近。我们的算法没有领域的限制性,因此具有更好的应用前景。
其他文献
阐述了黄川草莓品牌建设现状,分析了品牌建设中存在的问题,并提出对策,以促进草莓品牌创建工作的开展,为黄川草莓品牌创建提供参考。
【目的】筛选棉花耐盐、抗盐种质。【方法】以148份陆地棉背景的海岛棉染色体片断导入系为研究对象,利用苗期植株相对生长量进行耐盐性鉴定。【结果】148个导入系材料的平均
这些令消费者头痛不已的现行汽车商业保险条款将不复存在。北京车险信息平台数据显示,在投保商业车险超过一年的车辆中,约60%的车辆未发生过赔款。而剩下的40%投保用户,则笼
糖尿病性冠心病是糖尿病的慢性大血管并发症之一,是糖尿病的主要死因,对其积极有效的防治,具有重要的意义。从糖尿病性冠心病的中医病名、病因病机、辨证分型、辨证施治等方
在水文地质工作中,运用主成分分析方法对大量观测数据进行分析和解释,确定降水对泉域流量及地下径流的滞后影响年份,从而合理地进行地下水资源评价及水资源供需平衡预测
判别分析是判别样品所属类型的一种统计方法。在水文地质分析工作中 ,解决矿井涌水水源的判定、井孔出水量类别的划分等有关分类的问题 ,应用判别分析能够取得较好的效果
直接数字频率合成(DDS)是产生线性调频(LFM)信号常用方法,时钟抖动是影响其信号质量的因素之一。从时域出发,建立了由时钟抖动引起的DDS输出误差模型,推导出了抖动引起的LFM
波导窄边缝隙天线具有宽垂直波束、窄水平波束以及低副瓣的特性。这种形式的天线特别适用于船用导航雷达。选择了一种波导窄边缝隙天线,首先分析其理论模型,并给出理想的设计
介绍差压变送器的正确校验方法,以及在工程中的应用情况.
培养应用型外贸人才是中国经济发展的需要,而实践教学是培养应用型人才的重要手段。对国际贸易专业教学进行改革,应从培养研究或管理型人才向培养应用型人才转变,通过强化校