术语自动抽取技术的研究与应用

来源 :沈阳航空工业学院 | 被引量 : 5次 | 上传用户:dota_dk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
术语是通过语言或文字来表达或限定专业概念的约定性语言符号,术语集中体现和负载了一个学科领域的核心知识。术语自动抽取(Automatic Term Extraction: ATE)是自然语言处理中的一项重要课题,在机器翻译、信息检索、文本分类和文本摘要等领域具有广泛的应用。本文针对汉语专利语料翻译过程中,所存在大量术语影响翻译质量的问题,开展了中文专利语料中术语自动抽取技术的研究。论文在分析专利语料中术语的构词特点的基础上,实现了一个基于规则的术语自动抽取系统;使用目前命名体识别效果较好的最大熵模型和条件随机场模型进行术语自动抽取,将术语抽取问题转化为一个术语识别问题;分别进行基于词的最大熵模型和条件随机场模型的术语自动抽取实验,实验结果表明条件随机场模型优于最大熵模型;在基于词的条件随机场模型基础上,提出基于字的条件随机场模型术语自动抽取方法,该方法有效地避免了分词错误,有效地提高了系统性能;针对抽取结果采用规则进行后处理,过滤掉部分非术语,实现了一个基于字的条件随机场模型和规则相结合的术语自动抽取系统。本文所开发的系统获得了较好的实验效果,使用该系统对专利语料进行抽取,建立一个术语库,并应用于机器翻译中,有效地提高了翻译中术语翻译的准确性。
其他文献
<正>《语文课程标准》指出:"小学各年级的阅读教学都要重视朗读。要让学生充分地读,在读中整体感知,在读中有所感悟,在读中培养语感,在读中受到情感的熏陶"。这就要求语文课
教育信息化竞争力是衡量或反映一个国家教育信息化整体可持续发展的综合竞争能力,是提升教育竞争力的环境和动力,是教育竞争力的重要构成要素。对于教育信息化竞争力模型的研究
作为相对独立的商品生产者和经营者的水电厂与电网,在电能这一商品的交换中,应遵循等价交换的原则。现行水电厂上网电价普遍过低且长期未作调整,不仅违背价值规律,无法真实地反映
研究了在氯化十六烷基吡啶存在下硫氰酸铵—孔雀绿—水体系浮选分离锌(Ⅱ)的行为及其与常见离子分离的条件。结果表明,在氯化十六烷基吡啶存在下,控制酸度条件,Zn(Ⅱ)可被硫氰酸
应用包含基因型&#215;环境互作的ADM遗传模型及非条件和条件的分析方法对海岛棉开花性状的双列杂交2年数据进行发育遗传研究。结果表明,开花性状在多个时期存在显著的加性、
册田水库是山西省第二座大型水库,其任务是城市供水、防洪、农田灌溉,原为全国43座重点病险水库之一,1992年6月完成了除险加固工程,1993年9月完成了大同市引水工程。1995年汛期进行了高水位蓄水试
采用大田试验方法研究了转基因棉花种植对根际土壤酶活性的影响。结果表明,转基因棉花种植对其根际土壤酶活性的影响依棉花品种、生育期、土壤酶种类不同而略有不同,但是均在花
以大豆品种合丰25的球形期体细胞胚为受体,以CpTI基因为目的基因,应用基因枪法进行了遗传转化,同时以抗性体细胞胚筛选率作为转化率的指标,对影响基因枪转化的几个参数进行了优化
以辣(甜)椒细胞质雄性不育系21A、8A和9个不同基因型的辣(甜)椒恢复系为材料,研究其不育恢复基因的遗传。结果表明,匈804、LS7、湘紫、洛紫、SI201、转育R甜和转育R辣均能完全恢
<正>在这景色宜人、凉爽惬意的初秋时节,我们欣喜地迎来了参加"三晋法官笔墨情"文化建设(书画)交流会的朋友们。晋城地处太行山区,古称泽州、凤台,是个山川壮丽、人文丰富、