维吾尔文命名实体识别及若干问题的研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:wys8800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理中的经典问题,其任务是识别文本中的人名、地名、机构名、专有名词等具有特定意义的实体。维吾尔文命名实体识别具有独特的词法、语言特点,直接套用英语和汉语的方法并不合适。目前,还没有公开的维吾尔语命名实体标注语料。本文通过人工标注构建维吾尔文命名实体标注语料库。在深入分析维吾尔文命名实体语法和语义特征的基础上,鉴于条件随机场在序列标注任务中的优异表现,首先使用条件随机场模型对维吾尔语命名实体识别相关问题进行研究。在特征模板的设计上,使用词、音节、词性标注、分布式向量表示等不同特征,分析了它们对命名实体识别的影响。其次,使用神经网络的方法对维吾尔语命名实体识别进一步研究,利用字符向量、音节向量等表示方法,有效提高了系统性能。最后将命名实体识别的成果与机器翻译技术相结合,提出了基于词向量的双语命名实体等价对自动抽取方法。工作包括:1、维吾尔语命名实体标注语料库构建:利用现有的双语资源和中文命名实体识别的研究成果,构建了维吾尔语命名实体标注语料库,包括人名标注语料库,地名标注语料库,机构名标注语料库以及人名、地名、机构名一体化标注的综合语料库,填补了目前缺乏维吾尔语标注的综合语料库的空白,并公开。为维吾尔语自然语言处理的研究提供了公开的数据资源。2、维吾尔语词性标注中,提出了将字符嵌入、词嵌入与音节特征、后缀特征等易于获取的人工特征相结合的方法,进一步提高了标注性能。将神经网络方法应用到维吾尔语词性标注,利用双向长短期神经网络(BI-LSTM-CRF)对维吾尔语词性标注进行研究,构建了维吾尔语词性标注系统,其效果超过了全部已知文献中的方法。3、针对基于条件随机场(CRFs)与无监督特征提取的维吾尔语命名实体识别任务,提出了一种音节特征和基于词向量的相似词特征提取方法,并用此种方法构造特征,提高维吾尔文的命名实体识别效果。本文提出的音节特征几乎可以代替词干、词缀特征使用,从大规模的未标注数据集中获取词的语义信息,几乎达到了和词法特征相当的水平,部分标注任务中甚至超过了词法、词典等特征的水平;用此种方法构造特征,可以大大降低人工选取特征的代价,同时能提高维吾尔文的命名实体识别性能。4、根据维吾尔语命名实体中音译命名实体较多及其音节相对特殊等特点,提出了音节嵌入(Syllable-Embedding)的BI-LSTM-CRF模型。使用基于神经网络的方法对维吾尔语命名实体识别进行了全面研究,验证了基于音节的词语表示方法及其在命名实体识别中的有效性。研究了深度学习方法中的不同词语表示对维吾尔语命名实体识别中的影响;较好的解决了维吾尔语命名实体识别上的数据稀疏、未登录词以及人工构造特征费时费力的不足。5、基于双语词向量及命名实体识别的命名实体翻译等价对抽取方法:在维吾尔语命名实体识别成果的基础上,提出了基于词向量的双语命名实体等价对抽取方法。对双语对齐句子分别进行命名实体识别,然后将双语句子合并到一起,训练双语词向量,最后根据词向量相似度抽取实体翻译等价对。6、在综合本文中取得的研究成果的基础上,构建了服务于维吾尔语自然语言处理的网络服务平台。主要提供的服务包括基于统计/神经网络的维吾尔语词性标注(加工深度可以分别选择15,25,64个标记集标注)和命名实体识别;维吾尔语分句、分词、分音节处理等。
其他文献
绘本是用图画或者是配上浅显易懂的文字来讲述故事,不仅可以让他们体会阅读的乐趣,而且为他们进一步学习奠定基础。然而,与国外优秀绘本相比,原创绘本的创作水平还有一定的差距。因此,通过对中英原创绘本对比,旨在发现它们在视觉符号叙事上的异同,从而为中国原创绘本的创作提供借鉴。本研究要解决以下问题:1.《团圆》与《大猩猩》的图画是如何体现人际意义、概念意义和语篇意义?2.从视觉叙事角度,《团圆》和《大猩猩》
学位
前几年在中国高等教育学习国际学生的数量迅速地增加了,来华留学教育变得一个重要方法培养政治关系和增进国家的软实力。本次研究的目的是调查研究来华留学生对他们主办国有什么看法,是否他们的持久联系和教育内容能让他们更喜欢中国的文化,政治制度,政府政策。本次研究指出不同的条件能影响国际学生的留学经历和看法对他们主办国,中国。为了采集资料这次研究用调查问卷和深入访谈让留学生门来自不同国家,读书在不同上海的大学
学位
2017年6月,一次ABC和Fairfax媒体的联合报道指出,中国政府在澳洲正在进行多方面的系统性渗透(infiltration)活动。在澳洲国内,该报道引起了对复杂的中澳关系的反省和舆论。在澳洲主流社会舆论中常常称为“亚洲世纪”的当下,中国的崛起为决策人出了—道难题叫做”中国抉择“,同样,这道难题也为大众带来了令人焦虑的—种危机感。简而言之,作为澳洲交易量最大的经济伙伴,澳政府希望从与中国的经济
学位
随着经济的全球化,不同国家的文化信息传递变得越来越频繁,因此,语言传递中跨文化交际能力的重要性与日突显。语言与文化密切联系并且是信息传递的一个重要途径。语言翻译中的文化传递也就越来越受到人们的关注。当把一门语言翻译成另外一门语言的时候,不可避免的会遇到一些含有丰富文化含义的表达语句。因此,英语教学的目标之一就是要培养学习者的跨文化交际能力。对于翻译教学来说,跨文化交际意识的培养显得尤为重要。因此,
学位
质粒介导的喹诺酮耐药机制(PMQR)自发现以来,一直倍受国内外关注。尤其是同时介导氟喹诺酮类和氨基糖苷类药物耐药的aac(6’)-Ib-cr基因,常常在产CTX-M型ESBLs的肠杆菌中检出,且这些菌多呈现高水平的氟喹诺酮和第三代头孢菌素类耐药。我们前期研究表明,aac(6’)-Ib-cr基因可能有利于捕获其它耐药质粒。本研究拟构建分别携带aac(6’)-Ib-cr、blaCT X-M-27及aa
学位
A fuzzy subset of a given set S(or a fuzzy set in S)is described as an arbitrary function f:S→[0,1],where[0,1]is the usual closed in-terval of real numbers.This fundamental concept of fuzzy set was fi
学位
标的资产支付离散红利情形下的期权定价,一直是具挑战性的研究问题.本文提出一种基于红利加权的新模型,建立并证明了期权价格表示定理.理论分析显示,提出的新模型能完整地考虑红利支付时间、大小、次数等对期权价格的影响,因此可以给出精确的定价结果.我们还证明了新模型与其它经典模型及基准模型之间的关系,从而解释了新模型具有更优的定价精确度.数值结果也表明,所提出的新模型可为期权给出高度精确的价格、具有很强的定
期刊
苹果标准化作为苹果产业生产的有效手段,在促进果业现代化、降低交易成本、保障果品质量安全、提高社会整体效益方面,发挥了不可替代的作用。近年来,政府不断加大对标准的制修订工作,而对标准的实施情况以及实施效果评价研究较少,故构建苹果标准化实施与效果评价体系,建立科学合理的评价方法是本课题研究的重点。本研究通过实际走访,面对面调研了2012-2015年陕西省24个苹果基地县,71个乡镇,171个村苹果标准
学位
People always desire to find educational institutions that fulfill their requirements.It’s very hard to know different features of institutions and especially from the perspective of students and thei
学位
文种识别是一种利用计算机将电子文本自动划分为预先指定好的语言体系中的技术。文种识别是信息检索、搜索引擎、语音合成、自动问答和机器翻译等自然语言处理系统中的第一步。由于目前我国关于文种识别的研究较少,以及开源文种识别工具未考虑到部分少数民族语言文字实际情况,本文开展了如下研究工作:维吾尔文、哈萨克文、柯尔克孜文字符在Unicode编码方案中被安排在阿拉伯字符区域。因此,上述三种语言与其它用阿拉伯文脚
学位