基于内容的词义本体知识自动获取

来源 :全国第八届计算语言学联合学术会议 | 被引量 : 0次 | 上传用户:jsd84r
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于自然语言的灵活性和复杂性,给语言知识自动获取带来一定的困难.本文提出基于内容的词义本体知识自动获取方法,该方法首先定义了词义本体知识描述框架,然后从语料库中获取词本身与同现的其它信息在语义、语用、句法等方面的用法,形成词义的本体知识库,并以量化的形式保存.利用所获得的词义本体知识,本文实现了文本相似度计算、信息过滤等有关实验,与现有方法相比,较好解决了精确率偏低问题,取得了较好的效果.
其他文献
网页查重就是将大量网页集合中重复的网页找出来,并加以选择,使用户不用处理大规模重复信息,在节省时间的同时,提高信息检索等的应用效率.快速高效的网页查重算法无论对于采集器,还是web检索系统都十分重要.本文在对已有的文本查重算法进行比较研究的基础上,提出了一种基于特征码和词频的快速网页查重算法,该算法将特征码算法和传统的分类算法结合起来,在检索速度和效率上都取得了比较好的实验结果.
时间信息抽取是自然语言处理的一个新课题.2004年ACE评测在TERNevaluationplan中对时间表达式的评测给出了详细的定义和要求.本文给出了表达明显时间信息的短语--事件类时间短语的定义.事件类时间短语的识别对于信息抽取、信息检索、问答系统、文本摘要和数据挖掘等领域的研究都将具有很重要的意义.因为事件类时间短语的结构的特殊性,本文采用规则的方法进行识别,在封闭测试中Fβ=1值为91.6
在自然语言处理领域,从语义处理的角度来看,像词汇语义网这样高层次的知识库是保障正确的语义解释和语义关系的设置所必须的资源.本文就多语种词汇语义网构建中的概念及其关系表示、概念体系、语种转换、UNICODE编程等问题进行了初步分析,以期对多语种词汇语义网的构建起到积极的意义.
比较研究了决策树模型和最大熵模型在中文文本分类中的应用.利用分类训练集的文档类别标号已知,按类别进行文本的特征选择,去除了对分类任务作用不大的词语特征.在上述得到的特征集合下,对目前应用较多的决策树模型和最大熵模型,分别进行了特征词的二值情况下和加入特征词的频率信息的情况下的中文文本分类实验.实验结果显示,在相同的条件下最大熵的分类性能要优于决策树,最大熵模型的分类准确率要比决策树高近20%.另外
汉语的句法结构可以从多角度、多层次进行分析,但如果服务于框架语义分析,则有其特定的要求.本文试图构建一个汉语句法分析模型,它是一个词汇化的句法分析模型,能够解决框架语义分析的特定需要.我们使用了BaseNP的界定和依存关系模型,后者中心词的确定是研究重点.由于框架语义分析的实质是研究中心词与支配词之间的依存关系,因而面向框架语义分析的句法分析需要分析出句法中心词.而词汇的引入必然带来严重的数据稀疏
本文针对现代藏语名词组块的构成与结构,对名词组块做了初步定义,并根据名词组块的句法功能开展了名词组块的分类研究,提出名词组块的形式标记可分为三种类型,一是词格、派生词缀、名物化标记等显性标记,二是代词、数词、指示词等可穷尽性词类作为自指标记,三是名词、形容词等构词词缀作为隐性标记.名词组块识别的基本策略可依靠右边界开展.
本文对人民日报标注语料的索引方法进行了研究,提出一种词语和标记的二元混合索引的方法,在可以同时检索词语和标记串的基础上,有效地提高了检索效率.
汉语多音词自动标音的研究可以为语音合成及汉语教学等领域服务.本文采用N元模型的统计方法对现代汉语中的多音词进行自动标音,通过引入相似词,采取"词形-相似词-词性"三步回退的策略,缓解了数据稀疏问题,实验结果说明这个方法是有意义的.
在网络信息资源持续膨胀的情况下,用户行为分析已经成为网络信息检索研究的重要热点.用户行为分析不仅对改进信息检索算法指出有益的方向,而且事实上已经成为任何一种成熟的网络信息检索评测方案不可缺少的一部分.本文试图从改进检索算法以及评测检索效果两方面对用户行为分析的研究情况进行概述,并对用户行为分析在网络信息检索中的应用做出展望.
信息抽取是自然语言处理领域的重要课题.传统多槽信息抽取系统的规则是基于零阶逻辑的,表达能力有限.归纳逻辑编程(ILP)借助一阶谓词逻辑的强大描述能力,可以自然地表述各种特征,将其整合到一个逻辑框架下,从中学习目标关系.本文研究了ILP学习算法在多槽信息抽取中的应用.实验结果表明,本算法学到的规则比基于零阶逻辑的典型代表WHISK算法具有更好的性能.