【摘 要】
:
本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间和空间复杂度内,有效的标出多义词义项的算法.该方法从以前对每个多义词进行排歧时只考察其上下文环境和对应信息,改变到对句子所有中的词同时考察上下文环境,这样就可以从另一个角度来进行词义排歧,并且取得了满意的
【机 构】
:
山西大学计算机与信息工程学院(太原)
论文部分内容阅读
本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间和空间复杂度内,有效的标出多义词义项的算法.该方法从以前对每个多义词进行排歧时只考察其上下文环境和对应信息,改变到对句子所有中的词同时考察上下文环境,这样就可以从另一个角度来进行词义排歧,并且取得了满意的实验结果.
其他文献
知识表示(Knowledge Representation)是人工智能领域中一个核心问题,因为对知识共享和知识交换的需要,本体论(Ontology)被引入到人工智能领域中来.可以将本体论中的概念视为知识(Knowledge),但考虑到习惯用法本文将同时使用"知识"、"概念"这两个术语.考虑到OWL的优点,本文提出了基于OWL的知识表示法.
内容安全是网络安全领域的新课题,本文采用了基于网址过滤和基于内容关键字的过滤相结合的思想,建立了一个通用的互联网WEB信息内容过滤模型,并对其中的关键技术进行了分析.
2003年在日本扎幌举行了第一届ACL-SIGHAN国际中文分词竞赛.这次竞赛指定专门的训练语料与测试语料,统一用一个Perl语言编写的程序进行分词系统评测,整个评测过程是完全自动化且公平的.本文试在各参赛队提交的系统分析报告的基础上,比较目前中文分词所采用的新方法,分析各种方法对最终分词结果的影响,从而找出分词系统研制的重点和难点.
本文介绍了2003年"中文与接口技术"汉语自动分词与词性标注一体化评测的一些基本情况,主要包括评测的内容、评测方法、测试试题的选择产生、测试指标以及测试结果.并着重介绍了测试中所采用的一种柔性化的自动测试方法.同时,对评测的结果进行了一些分析,对今后的评测提出了一些建议.
单字地名简称识别是中文专名识别的重要组成部分,其中单字国名简称又占到了单字地名简称的78.43﹪.但就现有的词性标注系统来看,还不能很好地对其进行识别.本文提出了一个基于规则的识别方法,以分词文本为底本,通过两次扫描,第一次扫描建立基于语篇的临时国名词表,第二次扫描利用上下文特征词等评分机制,从分词碎片中召回单字国名简称.在封闭测试和开放测试中,都取得了较好的实验结果,以人工分词文本为输入底本,调
对机器翻译而言,译文的转换与生成是保证输出高质量译文的关键.本文论述了词典和规则的设计原则,并且给出句子结构和目标生成的实现方法.
动词一直是语法学界研究的一个热点问题,随着新词语的涌现,新词语动词也层出不穷,在此基础上我们建立了可带体词性宾词的数据库,研究新词语动词带体词性宾语的能力.
人称代词(r)和名词(n)的线性序列中人称代词和名词的关系呈现出多样性,本文在现代汉语语法信息词典的基础上考察了r和n的组合类别,指出汉语r+n的搭配存在选择限制,r和n可以形成表示领属关系的定中结构,也可以形成表示同指关系的同位结构.并归纳出r和n的语义关系及共现条件,最后给出部分切分规则.
词性标注的关键是兼类词的排歧.本文探讨了一种方法来解决兼类问题,并以动词中的兼类词为切入点做了实验,即利用非兼类动词(纯动词)在大规模语料中的分布信息来判断具体上下文中出现的某个与动词有关的兼类词的词性.这种方法不需要人工标注好词性的训练语料,所需知识仅停留在词表一级,而且对其他存在兼类现象的语言也同样适用.实验结果证明了该方法的可行性.
熟语是自然语言中存在的普遍现象,所有的语料库在标注阶段都要处理熟语.为了把熟语问题处理好,本文以英汉熟语为例,在英汉熟语对比研究的基础上,介绍并分析了国内外现有语料库对英汉熟语的标注方式,发现并解决了一些汉语熟语在词性标注时存在的问题,进一步指出了对汉语熟语的语义进行标注的研究方向.