【摘 要】
:
隐喻的计算语言学研究主要存在两个问题:隐喻理论多样且差异较大;隐喻知识库和语料库的可计算性不足.为解决隐喻理论与计算的衔接,寻找面向计算的隐喻分析框架,本文提出了利用易收集、本体喻体喻底易区分的明喻句作为媒介,通过分析其概念域的整合方式为其他隐喻方式的研究提供理论和计算依据的方法.语域受限的封闭语料穷尽分析试验表明,属性明喻句可通过凸显特征来计算;动作隐喻方式复杂,其可计算性比较低,并非现有知识库
【机 构】
:
南京师范大学文学院,南京210097 南京师范大学文学院,南京210097;南京大学计算机软件新技
论文部分内容阅读
隐喻的计算语言学研究主要存在两个问题:隐喻理论多样且差异较大;隐喻知识库和语料库的可计算性不足.为解决隐喻理论与计算的衔接,寻找面向计算的隐喻分析框架,本文提出了利用易收集、本体喻体喻底易区分的明喻句作为媒介,通过分析其概念域的整合方式为其他隐喻方式的研究提供理论和计算依据的方法.语域受限的封闭语料穷尽分析试验表明,属性明喻句可通过凸显特征来计算;动作隐喻方式复杂,其可计算性比较低,并非现有知识库所能支撑.最后探讨了明喻计算的界限问题.
其他文献
语义分析是现代语言学和计算语言学领域最具挑战性的研究之一,也是当前制约语言信息技术大规模应用的主要瓶颈。语义分析的首要任务是确定要获取什么样的语义信息。本文引入特征结构的概念,旨在分析汉语复合名词短内部结构及其语义关系,探讨有效的汉语语义分析策略。复合名词短语的特征结构标注是基于特征结构表示的汉语大规模语义资源建设的一个子任务.本文探讨了在标注的过程中建立的最小关联原则、直接关联原则、语言关联原则
词素切分即视词根与附加成分为基本词素,自动识别词根的词性及意义、附加成分类型信息.基于词素的切分能有效处理歧义和未登录词,有效缓解数据稀疏问题,促进语言信息处理深层次发展.目前蒙古文信息处理还尚未进入词素切分层面.论文探讨了实现词素切分的理论和实践基础、面临的难题,认为:实现蒙古语的词素切分需要充分利用定性与定量,规则加统计的方法,先借助语言学的定性研究成果,建立信息处理用词根及附加成分词典,制订
语义相似度计算是自然语言处理领域的关键问题之一,在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用.本文将集成方法应用子基于大规模语料库的汉语语义相似度计算上,提出并实现了不同语域的集成方案.分别使用新闻语料和互联网语料,选取窗口大小为2或3的上下文词语特征、以上下文与目标词之间的互信息作为权值构建特征向量,计算向量之间的cosine夹角作为词语相似度,
为了更好地解决统计机器翻译中的调序问题,本文提出了基于句法信息、词性标注信息和规则相结合的源语言重排序模型作为统计机器翻译的预处理模块.该模型分为两种,一种是基于依存信息、词性标注信息和规则相结合的模型,另一种是基于短语结构信息、词性标注信息和规则相结合的模型.以汉蒙统计机器翻译做实验,结果显示经过该模型进行预处理后的统计机器翻译的BLEU评分比经典的短语翻译有较为明显地提高.实验结果表明这两种源
汉语词法分析是中文信息处理的基础,现阶段汉语词法分析的主流技术是基于统计的方法,这类方法的本质都是把词法分析过程看作序列数据标注问题.上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础.汉语词法分析时需要从上下文获取相关的语言知识,但上文和下文是否同样重要。为克服仅凭主观经验给出猜测结果的不足,对汉语词法分析的分词、词性标注、命名实体识别这三项子任务进行了深入
在当前基于信息库的语言教学的启发下,建立了《对外汉语新词教学信息库》.在《信息库》的基础上,对新词的语音、语法、语义、语用等语言信息和社会文化、心理认知等非语言信息进行了量化统计和数据分析,语言是个复杂的系统,从整体上说,语言系统的内部因素和语言系统的外部因素是一个相互依存的互动的过程,语言的社会属性和自身的系统性要求在看待语言发展时要树立全面的、动态的观点,试图将这些要素分开来说明新词在词汇系统
当前词类研究不仅要面向语言教学,更要面向机器的语言自动处理,由于机器对于语言知识内在逻辑性的严格要求以及实际应用任务的严格检验,都使得汉语现有词类体系和词类知识暴露出诸多问题,这些问题已经引起研究者的普遍关注。本文使用词性自动标注模型对影响英汉语词性标注的相关因素进行定量研究,进而探究词汇因素与语法因素各自对英汉语词性标注的影响,目的是为深入分析英汉语在词类问题上的差别,更好地构建汉语语料库提供参
共指消解是指将多个命名实体指向现实世界中的同一实体,其目标是识别出文档中所有存在的共指关系。共指消解在自然语言处理任务中有着广泛的应用。选择合适的特征是共指消解任务中一个重要的组成部分.特征不是越多越好,反映本质的特征很重要;对于不同种类的语料,一个公共的特征集往往难以适应,为了提高特征对语料的针对性,对不同的语料应选择不同的特征.本文基于上述观点,采用粗糙集理论中的属性约简方法来解决共指消解的特
文本蕴含可以定义为:个连贯的文本(Text)T和一个被看作假设(Hypothesis)H之间的一种语义包含关系。如果H的意义可以从文本T的意义中推断出来,那么就说T蕴含H(即H是T的推断)。文本蕴含的研究对于自然语言处理中不同应用所需的语言表达多样性的推理识别有着重要意义。比如在多文本自动文摘中,从文本中省去的冗余句子或表达应该被摘要中的其他表达所蕴含;对于信息抽取,表达相同关系的不同文本之间也存
本文基于隐喻认知观和词语属性分析理论,利用网络数据挖掘技术,构建了基于《知网》语义体系的汉英双语词汇隐喻属性知识库,进行跨语言系统对比分析词汇隐喻属性.通过研究跨语言词汇隐喻属性的异同,用量化统计和系统分析初步地回答了隐喻的否跨语言特点,本文同时进而提出了利用双语知识库,以一种语言的词语隐喻来增益研究对译词语隐喻属性的方法,为基于隐喻属性的语义分析计算打下了一定的研究基础.