基于子词的历史典籍术语对齐方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:peng1589955
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于历史典籍术语存在普遍的多义性且缺少古汉语分词算法,使用基于双语平行语料的对齐方法来自动获取典籍术语翻译对困难重重。针对上述问题,该文提出一种基于子词的最大熵模型来进行典籍术语对齐。该方法结合两种统计信息抽取频繁在一起出现的字作为子词,使用子词对典籍进行分词,解决了缺少古汉语分词算法的问题。针对典籍术语的多义性,根据典籍术语的音译模式制定音译特征函数,并结合其他特征使用最大熵模型来确定术语的翻译。在《史记》双语平行语料上的实验表明,使用子词的方法远远优于未使用子词的方法,而结合三种特征的最大熵模型能有效
其他文献
在发达国家中,风险导向审计有着很广泛的应用,我国审计模式正是借鉴了发达国家的成熟经验。把风险导向审计模式运用到工作中,可以使工作人员对被审计的企业的认识更为全面,继
1故障一1.1故障现象 机器开机后屏幕下方出现F1、F2字符,无法进入工作界面。
目的探索性研究齐齐哈尔地区高校教师福利收入、提升进修、领导管理满意度,为提高工作满意度提供理论依据。方法该研究采用随机数字表法随机抽取齐齐哈尔医学院及其附属医院
居住区绿化对城市人工生态系统的平衡,城市面貌的美化,对人们心理的良好作用都很有意义。在普遍绿化的基础上,注重艺术布局,使住宅建筑群掩映于花园之中。把居民的日常生活与园林
社区建设是市场经济体制建立和城市化发展的必然产物,也是我国改革开放过程中的一个新生事物。这些年来,实践工作者在社区建设方面做了许多有益的探索,初步形成了具有中国社
研究一类广义正则线性离散时间系统的迭代学习控制问题。利用矩阵奇异值分解的方法,将该类系统转化为差分代数系统,根据正则系统的特性,基于P型学习律构建得到迭代学习控制律
依托广东省广州至清远高速公路扩建项目为依托,探讨可拆装混凝土桥梁护栏在该项目的实践应用。首先概述该项目的基本背景,其次分析可拆装混凝土桥梁护栏的设计与构造,最后详
本文阐述了野生食用茵驯化育种、孢子分离育种、诱变育种、杂交育种、原生质体融合育种、代谢控制育种、基因工程育种的定义、原理、育种步骤、优缺点以及育种技术的研究进展
学界对弱势群体保护制度建构探讨较多,但对弱势群体保护法理依据研究明显薄弱。而对事物之“为什么”不清楚,对事物之“怎么办”就不可能真正清楚。社会连带理论蕴涵了弱势群
【正】 在我国社会主义初级阶段,应该选择适度超前的消费模式。这是因为,第一,我国经济生活本身没有出现实际的的高消费。有人说现在消费基金膨胀就是高消费,我看这不只是统