利用跨语言特征的柬埔寨语命名实体识别研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:loogog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语词对齐是自然语言处理技术中一项重要的工作,词对齐目的是在句子级互相翻译的两种语言文本中找出词汇级的对应映射关系,词对齐是许多自然语言处理任务的基础工作。命名实体识别一直是自然语言处理领域的热点和难点问题,也是统计机器翻译和跨语言信息检索的重要基础。柬埔寨语自然语言处理技术起步较晚,且受到语料资源稀缺的限制,本文用技术成熟的英语实体识别帮助柬埔寨语命名实体识别。针对上述问题,在研究并分析现有研究工作的基础上,本文主要完成了以下特色研究工作:1.基于非参数贝叶斯模型的词对齐方法基于非参数贝叶斯模型的词对齐方法用分层PY过程(Pitman-Yor processes)替代IBM模型4的分类分布,构建结合语言特征的非参数贝叶斯模型,提出双语词对齐方法。IBM词对齐模型是应用于大多数统计机器翻译系统的主要模型,模型存在的问题是没有考虑到双语语言差异性并且在训练过程中往往会产生过拟合问题,不适合解决语料稀缺的柬埔寨语语言处理,为了避免过学习的问题,本文选用非参数的贝叶斯模型融入柬语定语后置的语言特征,实现英柬词对齐。该方法词对齐方面优于IBM模型,取得了良好的效果。2.融合跨语言特征的柬埔寨语命名实体识别方法融合跨语言特征的柬语实体命名识别方法,用于解决柬语中的命名实体实体存在的缺少有效实体特征等问题,提高柬埔寨语命名实体的识别正确率。鉴于英语领域命名实体研究方法较为成熟,我们利用英语较为成熟的命名实体识别技术,以英柬平行语料为桥梁,实现柬语的命名实体识别。首先,参照英语现有的成熟的命名实体识别技术,根据词对齐关系把英语的实体分布按照一定方式映射到有对齐柬埔寨语侧,柬语之间通过标签传播算法得到所有柬语单词的实体标签分布,通过设置阈值,将实体标签分布布尔表示,再将表示的结果作为特征运用到条件随机场模型之中,对柬语中的人名、地名、机构组织名进行识别。3.构建了融合跨语言特征的柬埔寨语命名实体识别原型系统利用研究结果,设计并开发了融合跨语言特征的柬埔寨语命名实体识别原型系统,介绍了系统搭建所需工具和系统框架,详细阐述了系统的使用过程。实现了对柬语文档中的人名、地名、组织机构名的识别。
其他文献
铸铁和碳钢作为工业生产中应用广泛的铁碳合金,具有价格低廉、良好的铸造性能、切削加工性、减振性等优点,但在复杂应力的使用环境中,材料表面易出现磨损、变形甚至断裂。本文采用激光熔覆技术,在HT250灰铸铁和T10钢表面预置Cu-Ti-Ni混合粉末,制备Cu-Ti-Ni复合涂层。通过X’Pert PRO PANalytical型X射线衍射仪、S-3400N型扫描电子显微镜、4XCJZ金相显微镜等,分析了
人脸吸引力是遗传心理学和认知心理学的一个重要命题,研究结果可以给人脸进化(以及人类进化)提供科学依据。结合计算机的人脸吸引力研究可以完善传统研究方法存在主观性强、数据少的不足。在人脸吸引力的研究中,确定人脸模板是首要任务。本文基于迁移学习,提出了一种新的人脸吸引力人脸模板,在人脸模板基础上提取了三种表征人脸吸引力的几何特征,实验结果表明了人脸吸引力人脸模板是合理可行的。具体研究内容如下:(1)在人
周予同是中国经学史学科的缔造者,他在五四运动后投身于经学史研究,著述颇丰。其《皮锡瑞<经学历史>注》、《经今古文学》等著作都是中国经学史的必读书目,也是近代经学史研究的滥觞之作,对于民国时期的经学史、学术史研究乃至现代学术都有着非凡的开拓与奠基意义。周予同的学术研究在新中国建立前后曾发生过转向,其经学史领域的基础性研究大多集中于民国时期。新中国建立后由其一手创建的中国经学史学科也是以这
随着全球定位系统应用的普及,轨迹数据早已应用于人们日常生活中的各个领域。轨迹分段是轨迹数据挖掘中重要的预处理过程,合理有效的轨迹分段结果有助于理解和使用轨迹数据。然而,目前应用于轨迹分段的方法只能针对特定的应用领域及轨迹数据集。本文基于轨迹数据的语义特征,提出一种可适用于多种应用领域的轨迹数据分段方法,之后结合该轨迹分段方法分别构建一种轨迹语义标注框架和一种交通量预测模型。主要内容包括:(1)提出
在现实生活和网络世界里,每时每刻都会产生数量庞大、种类丰富的图像数据,给这些图像标注分类费时费力。因此,在机器学习领域,针对无标签图像的聚类分析是一个研究难点和热点。由于图像本身特征维度很高,对于图像聚类分析而言,图像特征的提取和高维特征的降维对聚类结果有重要影响。虽然人们已经提出了许多成熟的特征提取方法,但是这些方法关注的是图像的低层特征,很少同时关注图像的中间层特征。实际上,图像的中间层特征往
20世纪下半叶,英国传统的经验主义史学因“新史学”的勃兴、后现代主义史学的滥觞而备受冲击。历史研究的客观性、历史发展的规律性以及跨学科研究的可行性等问题成为新旧史
在如今的大数据时代,网络每分每秒都会产生大量的行业数据,数据量之大几乎超出了现有的处理及分析工具的能力。另外,随着现代技术和生活水平的发展,人们对事物的认识也在不断演变。其中,Web新闻是人们每天都要接触的,他作为一种非常具代表性的数据,Web新闻内容以其多种多样的内容,实时发生且不断更新的性质,一直以来都是人们获取知识,了解时事的必要渠道。面对爆炸式出现的新闻内容时,如何快速直接的找到个人想要了
研究恋思萝卜提纯复壮与绿色高效栽培技术工作,是保留优良品种与高产关键所在,高效利用肥料资源,是农业可持续发展的必由之路。本研究通过田间试验与实验室测定对恋思萝卜的提纯复壮技术与绿色高效栽培技术的研究,完成的主要研究工作和成果总结如下:1、恋思萝卜提纯复壮工作的研究:本文主要是对恋思萝卜进行花期套袋工作,并设置未套袋对照组,连续了进行三年五代的大棚试验记录,分别是恋思萝卜的基本性状(叶片数量、根重、
双语平行资源由于其对统计机器翻译和跨语言检索等应用来说具有极其重要的意义,所以获取双语平行资源的方法也成为了自然语言处理领域的热点和难点,特别对于信息不发达的小语
非洲鸵鸟是世界上体形最大的二趾鸟,因其耐粗饲、抵抗力和繁殖性能强,同时它还具备极高的经济价值,深受广大养殖户的青睐。非洲鸵鸟的育雏期长达90d,在此期间鸵鸟的免疫系统尚未发育完善,极易遭受疾病、环境、营养、应激等方面的影响,给养殖户带来了一定的经济损失。脾是免疫应答的重要场所,含有大量免疫细胞,如淋巴细胞和浆细胞等。前期研究发现,在饮用水中添加不同浓度的硼对非洲雏鸵鸟脾的生长发育等产生一定影响。迄