面向专利的双语术语自动抽取技术的研究

来源 :沈阳航空工业学院 沈阳航空航天大学 | 被引量 : 8次 | 上传用户:zzslcg123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语集中承载特定领域的核心知识,术语的自动抽取能够辅助人们便捷地获得和积累该领域知识,而双语术语更是兼有两种语言的映射关系,因此双语术语自动抽取在自然语言处理中的机器翻译、信息检索、双语词典生成等领域都有重要的应用。随着海量数据时代到来,基于统计的术语抽取逐渐成为研究的热点,特别是利用机器学习的方法进行术语的自动抽取已取得较好的效果。本文在手工构建的双语术语标注语料基础上,采用条件随机场分别进行中英双语术语的自动抽取,并根据本文提出的基于语义预测的双语术语相似度算法计算已抽取的双语术语间的相似度,从而完成双语术语的抽取。本文的主要工作是:面向中英双语专利总结术语特征并归纳术语标注规则,以区分术语与其它词语;在该规则指导下,手工标注中英双语专利中的术语以构建双语术语标注语料;在术语标注语料的基础上,利用条件随机场分别训练双语术语抽取模型,并进行特征选择、标记位选择、特征模板选择等实验,以选择抽取效果较好的训练模型;实验结果证明,引入领域特征和使用三字位标记有效地改善术语抽取效果,中文术语抽取F值达到88.43%,英文术语抽取F值达到87.51%。针对中文术语的缩略和英文术语的词形变化导致词典中双语术语的覆盖率较低,本文提出基于语义预测的双语术语相似度算法计算已抽取的双语术语间的相似度,据此进行双语术语对齐,双语术语抽取的F值达到91.57%;根据上述算法描述,完成一个模块化,可移植的面向专利的双语术语自动抽取系统,并完成相应实验。
其他文献
在纺织品生产中,织物疵点检测是质量控制中非常重要的一个环节。传统的织物疵点检测是由人工离线检测来完成的,受到人的主观因素的影响,存在着误检率和漏检率高、检测速度慢的缺
信念修正是常识推理的主要手段,然而信念修正方法在处理不一致信念时常常会出现有用的信念丢失和结论集难于抉择的问题。为了解决这些问题,邓安生教授提出了信念的非修正方法
近年来,随着计算机及相关技术的发展,使得将计算、通信、网络与传感等功能都集成在一个设备成为可能,无线传感器网络正是这些技术紧密结合的一种典型实例。人们希望随时随地享用
目前医学影像已成为发展最快的技术领域之一,广泛应用于诊断和治疗,是现代医学中的重要手段和工具。医学图像处理是医学影像技术极为重要的一个环节,它能有效地对医学图像进
无线传感器网络(WSN)的路由协议是WSN领域中当前热门研究方向之一。虽然目前国内外提出了不少无线传感器网络路由算法,但是大部分的研究工作都是基于仿真平台对协议进行评估,
近年来,网络的发展和普及为我们的工作和生活提供了便利,但同时其安全性和可靠性成为我们关注的焦点。随着攻击者知识的日趋成熟,攻击工具与手法的日趋复杂多样,单纯的防火墙
随着Internet和网络信息技术的迅猛发展,网络资源呈指数急剧增长,传统的通用搜索引擎的查询结果只依赖于查询关键词,而实际上,即便相同的查询词,不同的用户查询目的可能不同,
现阶段,国内各高校数字校园的建设不断深入,大学资源计划(URP)逐渐成为高校信息化建设的主流理念。数字化建设已经从过去的系统集成阶段发展到目前的应用集成阶段,高校数字化
在信息技术日新月异的今天,数据量呈几何式增长,数据的维数越来越高,使得信息更为充分的同时,也给数据挖掘算法带来了诸多挑战,尤其是对分类和聚类问题的影响较为突出。数据
录井数据记录了钻井过程中的各种信息,是地质分析解释、指导勘探开采的基础。随着计算机技术的发展以及录井行业的需求变化,传统的以二维图件来展示、分析、处理录井数据的方