基于统计的生物信息领域术语抽取研究

来源 :东北林业大学 | 被引量 : 0次 | 上传用户:yangxmscuosaka
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语抽取技术是信息处理领域的一项基础性课题,是自然语言处理领域的非常重要的子任务,在诸如自然语言的生成、句法分析、数据挖掘以及机器翻译、文本分类等很多领域都有广泛的应用。  有关生物医学的最新信息大部分以文献的形式存在,近年来生物信息领域的术语抽取已经取得了一定的成果,但现有成果距离真正实用还有一定距离,其中最主要的问题就是识别的精确率和召回率还有待提高,尚不能满足实用化的要求。同时,在目前的生物信息领域开放语料的术语抽取实验中,前2000多个双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取也成为名词术语自动抽取的一个难点问题。  本文以提高生物信息领域的术语抽取的性能作为目标,利用基于统计的方法从文本中发现知识,寻求新的识别策略,解决生物信息领域术语抽取的关键问题。本文的研究工作主要从如下几个方面展开:  (1)对比分析国内外在术语自动抽取领域的研究成果,总结术语的各种表现特征。包括术语及术语的特征研究,真实文本中术语的本质、表现特征等,对术语抽取的相关统计参数进行对比研究和分析,为设计较好的术语抽取模型和自动抽取算法提供理论基础。  (2)针对术语的特点设计并实现术语自动抽取算法,确定术语的前后界,衡量术语的内部联合强度,在分析对比各种抽取参数的基础上,将多种术语抽取参数联合应用于生物信息抽取领域,提出了基于混合策略的术语自动抽取模型,充分利用不同参数之间的优缺点进行互补,避免了单纯用一种方法抽取术语的局限性,这些工作对于本领域术语识别的研究具有参考价值。  (3)对不同抽取方法的正确率进行分析和比较,结合NC-value参数在长术语抽取方面的优势及MI(mutual information)参数在计算术语的内部结合强度中的优势,提出了基于改进瀑布模型的术语抽取方法,并将每一步过滤后的候选术语集进行反馈。  实验结果表明,本文提出的两种抽取方法在术语抽取的准确率和召回率方面都取得了很好的效果。
其他文献
该文根据工业设计的现状及其知识特点,研究设计知识的获取和表示方法,以及如何运有设计知识进行设计解释.在此基础上,作者以专家系统理论和模糊逻辑论为基础,提出一种基于知
该文详细地介绍了电力系统送电线路金具组装绘图软件的设计及开发,该软件以AutoCAD为支撑软件,借助于Visual BASIC语言诼Autolisp语言,完成了金具组装的计算机绘图.该文阐述
当前国内航天科技事业蓬勃发展,各种新兴技术日新月异,航天计算机作为航天设备控制的中枢神经,对航天事业的发展起着无可替代的作用,随着航天工程复杂性的不断提高,设备对计算机的
医学教育是一门基础性和实性很强的科学,也是机能性和形态性相结合的科学.人体解剖学是基础教学中的一门学科,学生面对复杂的人体结构和抽象的概念,靠以往的教学模式和学生的
计算机、多媒体、互联网……这些随着数字时代的到来而涌现出的新事物给我们的世界带来了翻天覆地的变化,大量的媒体资源以网络形式发布。信息的安全性变的更加重要,如何有效地
随着因特网的蓬勃发展,通过对网络资源的检索,已经成为人们获得信息最为方便的方式。当我们在现有的搜索引擎中输入关键词进行搜索的时候,得到的结果通常是成千上万的网页信息的
在不同的网络中路由分组广播信息,需要有路由器对分组广播的支持,由此产生了几个分组广播路由协议.这些分组广播路由协议都是针对不同的网络环境设计的,为了使分组广播包能够
该文论述了新疆吐哈油田建立井下工具实验站的总体设计以及系统中计算机控制系统的设计和实现.计算机技术的引入大大的提高了井下工具实验系统的准确性、可靠性和自动化程度.
该文总结了数据仓库多维数据模型的两种实现方式,介绍了DM Warehouse的体系结构,论述了系统增量式更新实例化视图的策略.在此基础上,文章着重围绕数据仓库一致性的两个重要
该文对监测网络这一特定领域的软件自动生成技术进行了研究.作为该技术研究的基础,抽象出一个两层次客户/服务器模型;提出一种监测网络软件自动生成技术,它分两步实现:一、程