基于基因表达式编程的中文文本关键词提取算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:drink_xo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前计算技术特别是因特网技术发展迅猛,信息技术正深刻地影响着人们的生活。Blog、电子文献以及数据内容形成了文本的数据海洋,亟需为用户提供高效的文本信息处理服务。文本信息处理包括文本分类、文本聚类、文本挖掘和近似查询处理等内容,而文本关键词提取在上述方面有着广泛的应用,它不仅是进行这些工作不可缺少的基础和前提,也是互联网上信息建库的一项重要工作。文本关键词的自动提取是信息检索和摘要生成的基础,在Web页检索、文档聚类、文档摘要提取、文本挖掘等方面都有广泛的应用。关键词提取(keywords extraction ),其目的是自动生成准确反映文本主题的关键词,被认为是信息检索等技术的预处理过程。国外对该技术的研究比较早且比较深入,已经取得了不少研究成果;但中文关键词提取的研究相对落后,存在大量开发问题。虽然经过众多研究者的努力,取得了一定的进展,但仍然还有很多问题有待进一步研究和解决。首先,简要介绍了自然语言处理、文本信息预处理和特征项等相关知识,分析和比较了常用的关键词提取算法,讨论了用于英文关键词提取的GenEx系统、朴素贝叶斯提取算法以及处理汉语文本的PAT TREE、最大熵模型等相关工作,并进行了归类。然后,基于三个文本特征项,提出了考虑候选词权重计算的中文文本关键词提取算法TFLD(term frequency, location & distance algorithm),该算法基于词频、区域位置以及分词距离次序三种特征项属性。TFLD算法的关键是词语权重计算模型的构造。本文引入GEP技术来优化求解该计算模型,以GEP进化个体与训练样例间的关键词有序序列差异的总方差作为进化的适应度函数,通过GEP进化算法使得关键词提取算法词语权重公式的表达式结构满足优化阈值的约束。在对词语权重公式进行优化结构的基础上,引入了LMS(Least Mean Square)法则训练该关键词提取模型的调节因子。最后,TFLD算法与其他方法通过评价实验进行比较。结果表明,该方法有效提高了关键词提取的精度。
其他文献
如何提高网络入侵检测系统的实时性和适应性是网络入侵检测系统中的两大研究课题。为此,一些学者提出通过特征选择建立轻量级入侵检测系统的思想;另一些学者认为网络入侵检测
近年来,随着互联网的发展,一些社会网络,例如,国外的Twitter、Facebook、 Flickr以及国内的新浪微博、知乎等,用户量大且活跃度高,信息在网络中传播范围快而广,使得影响力最
随着信息技术的不断发展和互联网的迅速普及,人们从信息接收者逐渐转变为信息的生产者,信息的爆炸式增长推动着互联网进入大数据时代。如今大数据已经成为一种重要的战略资源
当今,社会已经进入了网络信息时代,中小学教师继续教育培训从传统的面授模式进入到了现代远程教育模式。在这种模式下,学员的学习内容、学习方法、学习时间、学习地点都发生
网格数据库是将数据库技术和网格技术相结合而形成的一个新的研究内容,是随着网格的发展而提出的新需求,其目的是把分布异构的数据库有效地集成到网格环境中。查询处理技术是
文本倾向性分析就是对用户对某个事物的看法或评论文本的挖掘,从而得到该看法或评论是属于对该事物的积极或消极意见,是文本情感计算的一个热点领域。文本倾向性分析中的主要
随着计算机技术的迅速发展以及Internet的广泛应用,知识和信息在世界范围内实现了平等共享和快速传播,人们可以方便、快捷地从互联网络上获取信息;但网络信息的爆炸性增长,使得准
近年来,基于偏微分方程的图像处理方法在图像处理领域中得到了极大的关注,取得了重大成功。本文主要是对基于偏微分方程的图像分割和去噪进行研究,重点研究了基于梯度矢量流主动
随着现今通信网络技术的发展,移动智能网也在不断的扩大,网络维护问题随之显得越来越突出,如何保证网络的正常运行以及如何预防网络的潜在故障成为网络维护的关键所在。过去,
随着网络在我们国家的迅速发展,我们的生活、学习和工作方式都已经与网络密不可分。校园网对学校教育教学的管理工作影响都很重大,目前很多学校都建有试题库,有效地实现了教