基于词汇链的关键词抽取算法的关键技术研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:huacheng520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词自动抽取是依靠计算机从文档中选择出反映主题内容的词,也称作关键词自动标引,可以为用户提供一个简洁的内容摘要,使信息定位更加简单。关键词抽取在自动文摘、信息检索、文本分类、文本聚类等方面具有十分重要的作用。如何智能、快速、有效地从互联网上获取信息已经成为当前计算机领域中一个迫切需要解决的问题。关键词抽取是实现对互联网上信息快速和精确获取的重要手段。   本文挖掘和利用文档的结构和内容信息,对网页关键词抽取问题中的关键技术做了研究。主要内容包括:⑴在关键词抽取的研究中,本文将关键词抽取问题看成二元分类问题,即关键词类和非关键词类,设计并实现了关键词抽取算法。⑵提出了一种新的计算词义相似度的方法。在HowNet2002版的基础上,本文借鉴马尔科夫模型利用树状结构来计算词汇语义相似度。⑶提出了一种改进的TF-IDF方法,引入《同义词词林》在分词后将同义词做一次聚类,计算词频采用该词在文章中同义词的频率和,反文档频率采用《同义词词林》提供的同义词的反文档词频和。该方法与传统的TF-IDF方法相比有一定优势。⑷提出关键词的依存词的概念,对关键词所在的句子做句法分析,抽取依存词使得关键词更加能表达文章的语义。
其他文献
本论文对一种能够应用于工业复杂巡检场合,基于嵌入式系统的智能巡检移动机器人进行数学建模,并设计具有鲁棒性的控制器。设计基于单片机系统的,能够进行温度检测的装置,并通
网络化控制系统是一种全分布式、网络化的闭环反馈控制系统。它的控制器与被控对象在地域上相隔较远的距离,数据通信是通过网络进行的。由于网络传输过程中,常常出现数据碰撞
随着信息产业的蓬勃发展,通讯领域对系统可靠性要求越来越高,而UPS是系统可靠性的基础,因此人们对UPS的要求也越来越高。传统UPS一般存在设计复杂且不易维修的缺点,因此设计开发
随着对质子交换膜燃料电池研究的深入,有很多因素都会影响电池的性能,湿度值是其中的一个重要影响因素。如何使湿度保持在一个合适值从而使电池工作在最佳状态成为目前研究中的
节能与环保既是我国走可持续发展道路的要求,也是自动化的发展方向。随着能源短缺和环境问题的日益突出,它也逐渐成为了当今科技发展的热点。海上风资源丰富、稳定,而且不占用宝
励磁系统对提高电力系统稳定性的作用,一直是人们关心的课题和努力的方向。优良的励磁控制系统不仅可以保证发电机可靠运行,提供合格的电能,而且还可以有效地提高系统的技术指标
众所周知,图像技术的基础是图像,而图像的获取离不开图像采集设备。图像采集设备不但决定了图像的质量,而且影响着图像数据的采集和传输速度。随着图像技术应用的深入,人们对图像
凝析天然气是一种低含液率的气液两相流,其流量计量属于多相计量的一个分支,是石油天然气工业迫切需要解决的问题之一。目前,结合新型的信号处理技术,基于差压等常规测量信号
振动噪声是影响汽车和一些机械设备安全运转的重要因素,因此,降低振动噪声是一件非常重要的工作,从上世纪三十年代起,人们就一直致力于振动理论的研究,从机械结构的单层隔振到双层
随着科技的进步,越来越多的电力电子设备用于工业生产和大众生活,导致电网谐波和无功损耗现象普遍存在,严重影响了同一电网的其它电子设备的正常工作,给工业生产和电网安全带来了