汉英动词次范畴相关技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lucylxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是语言学研究的热点,也是自然语言处理进一步发展所不可或缺的知识。世界上很多语种在次范畴化信息自动获取的理论和实践等方面都取得了很大的进展。怎样减少次范畴自动分析过程中所需的由人工给定的语言学知识,同时减少输入数据对完全正确句法信息的依赖,并将目前已经成熟的汉英动词次范畴资源应用于实际,不但可以加深对动词次范畴语言现象的整体理解,完善动词次范畴相关的理论体系;而且也为语义和层次句法结构的表示及应用提供了新的研究方向,具有重要的理论研究意义和广阔的应用前景。阻碍次范畴化信息应用于实际的有两个关键问题。一是从真实应用中获得的文本数据一般不含有句法信息,并且同时含有大量的格式噪音现象,目前的动词次范畴自动获取技术不适合直接使用这样的数据作为输入;二是次范畴假设自动获取过程中,需要一定的手写语言学规则作为启发式信息。为了弥补以上不足,在尽可能少地依赖由人工给定的语言学知识的情况下,设计一整套更加适合计算机自动分析方法,使得动词次范畴可以取自实际,并应用于实际,本文在国内外已有相关成果的基础上,充分考虑动词次范畴的自身特点,对整个流程进行了深入的研究。依照数据处理的前后顺序,本文研究从如下几个方面展开:1.借鉴自然语言基础相关研究的方法,将段落切分、句子切分、标点符号的使用以及英文单词的大小写等格式噪音的纠正真正地整合到了一个统一的框架中。这种方法可以直接以同时含有多种格式噪音的数据作为输入,并且在噪音过滤过程中考虑了不同类别噪音之间的依赖关系,而不像传统方法,独立的考虑不同类别的噪音。这种统一的处理方法,极大提高了输入数据格式噪音的过滤性能,为将从真实应用中获取的文本数据被后续的自然语言处理工具所接受奠定了基础;2.设计实现了基于无向图模型汉语分词词性标注一体化系统并从泛函空间的角度讨论了各种分类器融合方式的优劣。一体化汉语词法分析系统可以同时进行分词和词性标注两个汉语自然语言基础任务,并且避免了传统的词法分析方法中分词阶段对词性标注阶段造成的错误累积,同时相对基于有向图的汉语分词词性标注一体化方法,无向图模型可以考虑更深层次的依赖关系,大幅提高了汉语词法分析的性能,为次范畴自动获取提供了保证。3.完成了从大规模真实文本中自动抽取语言学知识。这种以动词次范畴论元映射关系存在的语言学知识可以代替目前SCF自动获取过程中所需的启发式信息。这一过程不但放松了对输入句子必须含有完全正确句法信息的限制,并且采用了主动学习策略,使得在抽取过程中几乎不需要任何先验的额外语言学知识。此方法避免了目前方法中,论元映射关系需要人工事先给定的缺点,同时因为自动抽取方法可以获得大量的论元映射关系,较人工给定的论元映射规则,大幅提高了论元映射关系集合的覆盖范围。4.引入间隔加权子序列核函数,设计了一种基于有指导模式的动词次范畴的自动获取方法。这种方法不再直接应用论元映射关系的匹配推导来得到相应的次范畴假设。而是将指向同一论元类型的所有映射的左部,作为训练样本集,通过间隔加权子序列核函数的方法,将问题空间转化为特征空间,并在特征空间内,判定新输入的数据和哪一类映射关系所描述的论元类别更加相似,以决定应用哪一论元类别的映射关系。这种新的论元对应关系使用方式和间隔加权子序列核函数的引入,大幅提高了自动获取过程中论元对应关系集推导结果的一致性。5.研究了汉英双语动词次范畴论元对应关系(论元等价对)的自动获取方法。此方法可以在大规模的双语平行语料上,以一个简单的论元对应关系为初始种子自动地发现大量新的汉英论元对应关系。我们将这些新发现对应关系融入了基于短语的统计机器翻译系统后,翻译系统的汉英翻译性能有明显的提升,证明了自动抽取的汉英论元对应关系的有效性。以上5个技术依次应用,每一个步骤的输出都是下一个步骤的输入。技术1去掉了数据中格式噪音,使得这些文本数据可以被后续的自然语言处理工具所接受;技术2为动词次范畴获取添加了必要的词法信息。前两个技术广泛适用于其他应用,我们称其为预处理过程,但又是高质量动词次范畴分析不可缺少的支持。准备好数据后,技术3自动获取的语言学知识可以代替传统的启发式信息,技术4依据自动获取的语言学知识,以有指导的方式进行次范畴获取。技术5使用已获得的双语动词次范畴信息为SMT提供支持。这样本文在尽可能不依赖语言学知识的条件下,使得动词次范畴可以取自实际,并应用于实际的过程。
其他文献
本文主要对汉语简单形式反身代词“自己”的习得情况进行考察。在第一章中,本文简要介绍了汉语中简单形式反身代词“自己”的性质,回顾了以往文献中对“自己”的各种解决方案
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探究药品费用、社会卫生支出和人均可支配收入的关系,为降低药品费用提供相关建议。方法基于1990-2015年的时间序列数据,通过单位根检验、协整检验、格兰杰因果检验分析
語言研究有兩種傾向,一是研究结構,一是研究功能。現代漢語研究自《馬氏文通》開始都比較著重结構的研究,漢語詞語分類標準、漢語詞類系統、漢語句法分析、漢語句子分析和句
研究生群体是特殊的、接受专业化的、高级培训的群体,学习特点具有很强的独立性,且随着我国教育事业的发展和社会对高水平人才的需求,越来越多的人开始接受研究生教育,接受更
目的探讨炙甘草汤辅助治疗对急性心肌梗死PCI术后患者左心室功能及冠脉造影结果的影响。方法:选取我院2014年6月~2016年6月收治的急性心肌梗死PCI术后患者90例,按入院顺序编
党的十九大报告关于"社会主要矛盾转化"的重要论断,引起代表和专家热议,也得到了广泛认同和拥护。"这一变化,必将对未来的中国社会产生深远影响。"~①近年来,公安机关在社会治理
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
例1,男,3岁,因全身多处热液烫伤疼痛0.5h,于2005年11月19日入院,既往无药物过敏史。查体:神清合作.体温36.3℃,心率120次min^-1,呼吸22次min^-1,体重15kg.神志清楚,急性痛苦病容。创面分布
满语和蒙古语属于阿尔泰语系,而满语和蒙古语的比较研究历来都是阿尔泰语系语言比较研究的重点之一。过去国内外学者曾对满语和蒙古语作过多方面的比较研究,并取得了一定的成就