汉柬命名实体翻译等价对获取方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:zhengxkun12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体等价对是自然语言处理中的重要基础资源,在跨语言信息检索、机器翻译等领域都有重要应用。与其它大语种相比,由于语料规模和基础研究的欠缺,目前在汉柬命名实体等价对获取方法的研究上,还处于起步阶段。本文主要围绕如何获取汉柬命名实体等价对进行研究。论文的主要工作归纳如下:1.基于维基百科的汉柬命名实体等价对抽取基于维基百科的汉柬命名实体等价对抽取将互联网中的维基百科作为获取命名实体等价对的载体,利用维基百科多语言描述的特点作为汉语与柬埔寨语的桥梁,根据维基百科的页面结构特点定义了汉柬命名实体等价对抽取的规则,抽取了一定规模的高质量汉柬命名实体等价对,构建了汉柬命名实体库。2.基于机器学习方法的柬-汉音译模型构建基于机器学习方法的柬-汉音译模型通过将柬文命名实体翻译为中文命名实体的方式获取汉柬命名实体等价对。构建柬-汉音译模型将音译问题转化为音节切分标注和音节翻译标注两步标注序列问题,采用最大熵和条件随机场的机器学习方法构建音译模型。与统计机器翻译方法比较,机器学习构建的音译模型翻译效果更好。3.基于特征相似度的可比语料挖掘汉柬命名实体等价对基于特征相似度的可比语料挖掘汉柬命名实体等价对首先在汉柬双语可比语料中识别命名实体。根据不同类型命名实体自身的特点以及命名实体在可比语料中的特点定义了音译特征、翻译特征、上下文词向量特征、长度特征。分别计算候选命名实体各特征的相似度,根据不同类型的命名实体设置了不同特征相似度权重,通过各特征相似度加权求和的方式计算候选命名实体等价对的最终相似度,挖掘汉柬可比语料中的命名实体等价对。通过相似度计算的方法在汉柬可比语料中挖掘到了一定数量的汉柬命名实体等价对。
其他文献
培养国际化人才是“一带一路”对高校人才培养提出的新要求,高校作为培养主体责无旁贷。跨文化交际能力是国际化人才素养的重要组成部分,这势必要改革现有大学英语课程教学体
1月3日10时26分,嫦娥四号探测器成功着陆在月球背面东经177.6度、南纬45.5度附近的预选着陆区,并通过“鹊桥”中继星传回了世界第一张近距离拍摄的月背影像图,掲开了古老月背
双语词典是跨语言信息检索和机器翻译等自然语言处理任务中的一种基础性资源,所以双语词典的抽取一直是研究者们研究的重点。目前,基于可比语料库的双语词典抽取算法性能还不
母亲是个心灵手巧的人,在我小的时候,她总是变着花样做出各种美食,让我印象最深刻的就是麦芽糖。每当母亲开始做麦芽糖时,我便把这个消息告诉同村的小伙伴,他们相约着来到我
群文阅读是语文阅读教学的一种新形势,是当前语文阅读教学发展的趋势。群文阅读可以改变课堂的教学结构,提升学生素养,锻炼学生思维逻辑能力。进而对群文阅读进行探讨,提出初
Alzheimer’s disease (AD) is a neurodegenerative disease characterized by the progressive loss of cognitive functions in affected individuals. Brain tissue path
媒体融合是当下媒介生态圈正在进行的一场大革命,它是继三次产业浪潮之后的又一次产业界的深度大变革。互联网为人类带来诸多方便,同时互联网也促使传统媒体快速转型。这种局
车载GPS/DR组合导航系统中,需要把不同特性的传感器信息进行融合,实现系统整体状态的最优估计。设计了GPS/DR信息融合的联邦卡尔曼滤波器,局部滤波器分别处理GPS和DR传感器信息,主
惠州市降雨历时较长,受南海热带低气压及太平洋台风气侯影响,金山湖常水位较高,截流井易受外江顶托倒灌。为选择一种适用于老旧城区的截流井形式,通过普通截流井与智能截流井
本文介绍了沿海东台地区大棚青椒主要病虫害,分析了病虫害防控存在的问题,并提出了建议,包括坚持“预防为主,综合防治”的植保方针、坚持创新服务方式与提升对青椒病虫害防治