跨语言信息检索中的查询扩展

来源 :中国中文信息学会 | 被引量 : 0次 | 上传用户:fei5301821
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了把词典和马尔可夫随机域的潜在语义扩展相结合的新方法,充分的利用了现有词典资源,又克服了单一使用词典方法的局限性和单一使用语义扩展的不确定性,扩展出查询词的同义近义词,上下位词和潜在语义相关词,实验表明该方法能比较好的解决跨语言信息检索中翻译项的歧义问题。
其他文献
本文提出了一种基于组合线索和核心扩展方阵匹配的中日句对齐算法。该方法利用字典、字形、长度和特殊字符相结合的组合线索来计算句子相似度,并利用核心扩展方阵匹配实现中日句对齐。该方法在一定程度上解决了传统的基于长度的方法的错误蔓延问题,而且充分挖掘了中日双语之间潜在的联系,增强了相似度计算的可信度。实验表明,在中日句对齐任务中该方法取得了比较满意的结果。
基于层次短语的统计机器翻译模型是近年来比较流行且翻译质量较好的一种模型。层次短语翻译系统有效地将同步上下文无关文法的重排序能力构建于成熟的普通短语翻译系统之上,得到了在重排序和捕捉上下文信息方面都具有优势的模型。然而,层次短语翻译系统在计算复杂度方面远高出普通短语翻译系统,使用的规则存在大量的冗余。本文分析了基于层次短语的翻译系统的规则冗余问题,提出了一种基于重排序分割点的约束方法,使得学习重排序
本文提出了一种从句对齐语料中抽取出词语对齐的新颖方法。文章比较了主流的词语对齐方法,分析了IBM模型,发现模型在挑选最佳对齐方面的缺陷。我们对每组对齐取NBest的结果,然后利用有监督的学习方法对NBest结果进行组合优选,取得不错的结果。
本文主要介绍一个语篇标注体系,该标注体系采用自底向上的方法对基本语篇形式单元(BFDU)到句群等语篇中不同层次的语言单位和其间的关系类型进行标注,并标注了能充分反应语篇信息的各种词汇关系。本研究所产生的语料库可用于基于语篇的机器翻译、句法分析、信息抽取等多种应用领域的训练语料和测试语料。
本文在阐述多字词表达式的定义的基础上,对面向特定领域的多字词表达式提取的技术路线进行了详细说明,并在方法、面向对象规模、效率等方面有所创新。利用领域高频词的新技术提取了多字词表达式,其面向的对象是数量为G级大规模的真实文本,且计算时间复杂度是线性的,对所提取的结果进行人工判断后表明,效果较为理想。
如何让计算机根据自然语言的语义表示消解句子乃至段落篇章中的人称代词,一直是自然语言处理的一大难题。本文依据HNC理论的句类表达式和语义块构成的相关知识,提出了一种基于语义结构平行的人称代词消解算法,通过定义句子语义块的层次结构,制定相关的人称代词消解规则和算法,实现了段落中人称代词的指代消解,经开放测试表明该方法具有较好的消解效果。
冠词选择需要综合考虑语言知识、语义知识以及世界知识,是汉英翻译中的一个难点。本文针对传统的基于规则和机器学习的方法只考虑名词短语前冠词选择的问题,将冠词看作一种标记,将该问题形式化的描述为一个序列标注任务,提出一种基于条件随机场的解决策略,选取特征时充分利用词、词性等多层次资源,并引入前后词的互信息。实验采用包含91106个冠词的专利摘要做测试语料,F值达到80%。
本文以实词作为特征,采用Na(i)ve Bayes和最大熵分类模型进行主客观句子的判别。在公开的评测语料MPQA上实验结果显示:Na(i)ve Brdyes相比于最大熵模型取得了较好的性能,两者对主客观句子的判别具有互补性。为了改善间接主观性句子的识别性能,文章提出了三类训练两类判别的分类框架,有效地改善了主客观句子的分析性能。
全自动的语义分析一直是自然语言理解的主要目标之一。通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。为达此目的,人们已经进行了多年的努力,然而由于这一问题过于复杂,目前取得的效果并不理想。浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施事、受事、时间和地点等,其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。语义角色标注
在Google应用中使用的语言模型与其公开的Web 1T 5-gram库有很大不同,一个根本的差异体现在是否忽略标点符号。本文以谷歌拼音输入法作为切入点,通过典型性实例揭示了Google语言模型的两个具有普遍性的缺陷:内嵌标点也算连续字串,外部链接视同文档内容。文章给出了弥补这些缺陷的建议。