一种基于百度百科的中文网络文本关键词抽取方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:lxl_0598
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再利用主题间的关系进行权值调整,最后通过Na(i)ve Bayes法回溯并找到原文的关键词.该方法有效地避开穷举词条的统计方式,能在很大程度上解决现有文本挖掘方法无法抽取网络词汇和新生词汇这一难题.在两个数据集上的实验表明,该方法在规范的文本和不规范文本上都有着较好且稳定的表现.
其他文献
期刊
近年来,随着我国公路工程建设的快速发展,相关企业及工作单位对公路工程施工过程中试验检测分析工作的重视程度也得到了显著的提升.但是,由于受到人为影响、环境条件以及管理
近几十年来,我国社会经济发生天翻地覆的变化,城市建设项目工程及各种电力、水利、道路桥梁工程项目层出不穷,工程项目种类数量日益增加,这种情况必然带来施工企业间的激烈竞
期刊
随着社会能源的不断发展,资源消耗问题日益严峻,建设能源节约型社会已经成为当前发展的主流趋势.作为资源消耗量巨大的建筑行业,在施工中会消耗的大量的资源建设,并对环境产
软件缺陷预测在提高软件质量、控制和平衡软件成本方面起着举足轻重的作用,是软件工程的活跃领域.研究者提出了许多预测技术,从不同层面解决了不同的问题,但目前仍有些问题尚
摘要:随着科技的不断发展,计算机信息技术在各个领域中的应用越来越广泛,世界正在进入信息化时代。而信息技术的发展和应用给图书馆管理工工作带来了新的机遇和挑战。如何在信息时代的影响下,科学的利用信息技术,来提高图书馆的管理水平和管理效率,是需要人们深刻思考的问题。本文结合图书馆信息化技术的概念,对信息技术下图书馆管理工作受到的挑战进行了分析,进而提出了信息技术在图书馆管理当中的实际应用。  关键词:计
应急物流体理论(ELS3)是解决应急突发事件的宏观方法,以该理论基本原则为依据,从技术实施与应用角度研究应急救援物资的调度问题,以时间性,经济性和可靠性为优化目标,建立了多目标决策模型,并给出求解算法。为提高应急响应能力、缩短救援时间、减少损失提供一种实用的方法。
建筑工程的管理在实现建筑企业发展目标的过程当中扮演不可或缺的角色,同时管理水平的好坏对于建筑企业的发展有着决定向的影响.本文主要分析建筑工程施工质量管理中存在的问
摘要:关于互联器件电连接是否可靠良好的判断,接触电阻是重要的参考依据。在实际操作中,接触电阻对于广大设计工艺人员有着重要意义,但是对于接触电阻的定义和测量,一直处于模糊不清的状态。在蓄电池电压检测中,接线端子和电流线端子之间的接触电阻对于蓄电池有着重要影响。为了减小蓄电池检测的误差,确保蓄电池实际的生产质量能够达标,弄清楚接触电阻对蓄电池电压检测的影响意义重大。本文分析了接触电阻对蓄电池检测电压的