维吾尔语名词短语指代消歧研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:seraph72
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指代(anaphroa)是指在语篇中用一个指代词回指某个前文出现的语言单位,保证文章连贯性的同时又减少冗余、突出主题,使文本上下文通俗易懂。因此,对指代成分准确的消解有助于机器分析和语篇理解,是自然语言处理中的一项重要任务。指代消歧包括:1)待消解项识别,确定篇章中的哪些语言单位(如:代词、人称代词、名词/名词短语、专有名词、实体零指代项等)是存在于指代链中的待消解项,哪些语言单位是不存在于指代链中的待消解项。2)指代消歧:是指对文本中识别出的待消解项寻找指代关系进行消解的过程。指代的类型根据指代对象的大致不同分为:名词短语指代消歧、代词指代消歧、零型指代消歧。目前针对指代消歧的研究大多数集中在语料资源丰富的英文和中文指代消歧,并取得了丰硕成果,但对于像维吾尔语这样语料资源匮乏的语种研究还较少。因此针对维吾尔语名词短语指代消歧,本文完成了以下工作。(1)维吾尔语语言专家根据维吾尔语粘着性语系的语言特性,归纳出了5类具有指示性的维吾尔语名词短语,在专家的指导下进行维吾尔语名词短语特征向量提取。抽取15个特征作为待消解项识别的特征向量,利用深度学习在自然语言处理中较强的文本学习能力和提取深层语义信息的特点,本文利用栈式自编码算法(SAE)进行维吾尔语名词短语待消解项识别待验证深度学习的有效性,并在自编码算法的基础上引入非负约束权值,构建栈式非负约束自编码算法(SNCAE),完成维吾尔语语言的名词短语待消解项识别的任务。(2)在维吾尔语语言专家的指导下,通过分析维吾尔语名词短语指代现象,总结出五种具有指称性的名词短语,提取出维吾尔语名词短语指代消歧的特征向量。同时在特征向量中引入富含词汇语义及上下文位置关系的词向量,并在生成测试样例前加入待消解项识别,利用栈式非负约束自编码算法(SNCAE)提取出深层语义特征完成基于深层语义和句法信息的维吾尔语名词短语指代消歧。
其他文献
自然界材料的自组装技术为设计和制备先进结构材料提供了思路。在诸多生物材料中,贝壳较高强韧性及优异耐磨性吸引了众多学者的注意。其优异性能源于软硬相交替排列的纳米级
社会折现率是用于项目国民经济评价的重要参数之一。它的取值高低以及是取单一值还是多值,对项目比选具有很大的影响。对于社会折现率全国采用一个统一值还是各部门分别取值
阅读影响着青少年的一生,也影响着国家的未来。我国社会正处于剧烈变迁中,互联网+日益成为社会大众关注和使用的焦点,互联网的快速普及,导致价值混乱、过分功利、过度娱乐化,
本刊讯中国投资协会会员代表大会于3月30日上午在北京京西宾馆隆重召开。国家发改委领导出席会议并做重要讲话。会议围绕深入学习贯彻党的十八大精神,第三届理事会工作报告,
叙述了硝酸磷肥概况与冷冻法硝酸磷肥的生产工艺,简要论述了加入世贸组织对我国化肥工业的影响。提出利用现有合成氨装置,进口国外优质磷矿,发展硝酸磷肥生产,是化肥企业可选
1979年实施改革开放以来,我国根据具体历史情况和经济发展的实际需求,逐步开展行政审批制度改革工作,大致经历了四个阶段,当前国内外对如何完善行政审批制度尚无统一标准,这
自十一届三中全会以来,伴随着改革开放的脚步,我国企业的管理技术创新也有了较大的进展,国外一些先进的管理技术、管理手段先后被引进,并且在消化吸收、实际应用中取得了较
正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术是一种子载波相互正交的多载波传输技术,具有频谱利用率高、能够有效对抗码间串扰(Inter-symbol Interf
(一)引言王文彦、蔡明先生在他们主编的《语文课程与教学论》中指出:智力的核心是思维能力,反映到语文教学上,表现为语文和思维上的互相依存和相互促进,语文的发展有赖于思维的发展
<正>一、数据及其整理以浙江省2002年的42个部门投入产出表为分析对象,对其进行大量的计算与分离工作,把国民经济分成四大产业,即第一产业、第二产业、第三产业(不含金融保险