【摘 要】
:
全自动的语义分析一直是自然语言理解的主要目标之一。通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。为达此目的,人们已经进行了多年的努力,然而由于这一问题过于复杂,目前取得的效果并不理想。浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施事、受事、时间和地点等,其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义角色标注
【机 构】
:
哈尔滨工业大学计算机学院信息检索研究室,哈尔滨 150001
论文部分内容阅读
全自动的语义分析一直是自然语言理解的主要目标之一。通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。为达此目的,人们已经进行了多年的努力,然而由于这一问题过于复杂,目前取得的效果并不理想。浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施事、受事、时间和地点等,其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义角色标注是浅层语义分析的一种实现方式,具有定义清晰,便于评价的优点。
本文阐述了语义角色标注现有的语料库资源,各种分析方法等,特别对该任务的一些难点问题提出了具体的解决方案,并对语义角色标注的发展给出了展望。
其他文献
FreeartTrans英汉全文翻译系统是由西安汇申软件有限公司自主投资研发的基于规则的英汉全文全自动精确翻译软件。基于规则的机器翻译系统就是对语言语句的词法、语法、语义和句法进行分析、判断和取舍,然后重新排列组合,生成等价的目标语言。本系统是根据全新的机器翻译理论(MT )建立起的“翻泽仿生学”模型,依托本公司独创的“成分识别系统”和“综合立体释义选择系统”在机器翻译过程中尽可能地模拟人类的翻译
本文介绍了中国电子信息产业发展阶段研究院参加2008年第四届全国机器翻译研讨会机器翻译评测的情况。我们参加了机器翻译的三个领域的测试:汉英新闻领域、英汉新闻领域和美汉科技领域。参加评测的系统包括基于规则和模板的汉英系统、荚汉系统,以及一个汉英基于短语的统计机器翻译系统。文章介绍了这几个系统的主要设计思路,并评测相关实验进行了说明。
本文提出了一种基于组合线索和核心扩展方阵匹配的中日句对齐算法。该方法利用字典、字形、长度和特殊字符相结合的组合线索来计算句子相似度,并利用核心扩展方阵匹配实现中日句对齐。该方法在一定程度上解决了传统的基于长度的方法的错误蔓延问题,而且充分挖掘了中日双语之间潜在的联系,增强了相似度计算的可信度。实验表明,在中日句对齐任务中该方法取得了比较满意的结果。
基于层次短语的统计机器翻译模型是近年来比较流行且翻译质量较好的一种模型。层次短语翻译系统有效地将同步上下文无关文法的重排序能力构建于成熟的普通短语翻译系统之上,得到了在重排序和捕捉上下文信息方面都具有优势的模型。然而,层次短语翻译系统在计算复杂度方面远高出普通短语翻译系统,使用的规则存在大量的冗余。本文分析了基于层次短语的翻译系统的规则冗余问题,提出了一种基于重排序分割点的约束方法,使得学习重排序
本文提出了一种从句对齐语料中抽取出词语对齐的新颖方法。文章比较了主流的词语对齐方法,分析了IBM模型,发现模型在挑选最佳对齐方面的缺陷。我们对每组对齐取NBest的结果,然后利用有监督的学习方法对NBest结果进行组合优选,取得不错的结果。
本文主要介绍一个语篇标注体系,该标注体系采用自底向上的方法对基本语篇形式单元(BFDU)到句群等语篇中不同层次的语言单位和其间的关系类型进行标注,并标注了能充分反应语篇信息的各种词汇关系。本研究所产生的语料库可用于基于语篇的机器翻译、句法分析、信息抽取等多种应用领域的训练语料和测试语料。
本文在阐述多字词表达式的定义的基础上,对面向特定领域的多字词表达式提取的技术路线进行了详细说明,并在方法、面向对象规模、效率等方面有所创新。利用领域高频词的新技术提取了多字词表达式,其面向的对象是数量为G级大规模的真实文本,且计算时间复杂度是线性的,对所提取的结果进行人工判断后表明,效果较为理想。
如何让计算机根据自然语言的语义表示消解句子乃至段落篇章中的人称代词,一直是自然语言处理的一大难题。本文依据HNC理论的句类表达式和语义块构成的相关知识,提出了一种基于语义结构平行的人称代词消解算法,通过定义句子语义块的层次结构,制定相关的人称代词消解规则和算法,实现了段落中人称代词的指代消解,经开放测试表明该方法具有较好的消解效果。
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。本文针对传统的基于规则和机器学习的方法只考虑名词短语前冠词选择的问题,将冠词看作一种标记,将该问题形式化的描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91106个冠词的专利摘要做测试语料,F值达到80%。
本文以实词作为特征,采用Na(i)ve Bayes和最大熵分类模型进行主客观句子的判别。在公开的评测语料MPQA上实验结果显示:Na(i)ve Brdyes相比于最大熵模型取得了较好的性能,两者对主客观句子的判别具有互补性。为了改善间接主观性句子的识别性能,文章提出了三类训练两类判别的分类框架,有效地改善了主客观句子的分析性能。