基于百科词典的知识获取系统的研究与实现

来源 :第一届学生计算语言学研讨会 | 被引量 : 0次 | 上传用户:fgh000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从各种自然语言文本中获取知识是自然语言处理技术的重要应用.本文描述了从百科辞典文本中获取知识的探索性的研究工作,介绍了一个实验性的,限定范围的百科辞典知识获取系统.具体工作包括:利用分词工具进行初步的词条分类;在词条分类的基础上,对处理范围内的词条文本进行观察,以人工方式归纳其中目标知识的基于语义特征的模式规则;利用YACC工具对模式规则进行解释,进而抽取目标知识.文中给出了试验结果及分析.
其他文献
本文介绍了ABB公司的SMTS RT型便携式同步电机实时仿真器,它基于笔记本计算机,是一个功能强大的工具,用于AVR设备实时测试时,可进行下列工作:1)励磁设备的实时稳态和暂态测试;2)人员培训;3)AVR,限制器和PSS行为的预估研究;4)研发.仿真器包括所有与同步电机相关的元件,如调速器、轴负载(电动机方式下)、单元变压器、精简电网、灭磁电阻、励磁系统、旋转励磁机和静止励磁机等.
厂坝铅锌矿选矿工艺经过10年的研究与生产实路,实现了铅锌完全分离,产出了单一铅精矿和锌精矿。多次改进工艺流程,提高了精矿质量,达到了锌精矿SiO含量小于4℅的要求。从而产生显著的经济效益。文章就提高铅锌回收率的相应对策以及工艺的发展趋势提出若干建议。
未登录词的识别一直是汉语分词研究的焦点和难点,本文通过对各类未登录词的用字频率及上下文进行了详细地分析,提出一种基于混合策略的未登录词识别方法.实验表明,该方法对于多种未登录词的整体识别取得了较好的结果.
本文全面总结了语料库的几种数据管理方式,分析了各自的长处和不足,可以供语料库建设研究者参考.本文还提出了开发通用语料库管理系统的思想,讨论了通用语料库管理系统应该具备的功能,设计了通用语料库管理系统的体系结构,这种设计思想对于其他的文本数据库的建设也有实际意义.
本文以《现代汉语新词语信息电子词典》的已有成果为基础,以大规模真实语料的统计数据为依据,用统计数字来描述动词的各项语法属性,说明新词语动词的特点.
本文简要介绍了R.C.Schank的动态记忆结构,详细阐述了HNC语境的定义及HNC语境的三要素:领域、情景和背景,并且给出了HNC语境形式化表述的具体例子和方法,最后通过对比动态记忆结构和HNC语境,指出了两者的异同.
作者依据自己在北大计算语言所CCD(Chinese Concept Dictionary)项目的工程实践,提出了CCD的构造模型.该模型强调双语词典(Bilingual Lexicon)构造中的继承(Inheritance)和转换(Transformation)的思想,希望从现有WordNet的英语单语词汇语义信息出发,通过词典编篡者的翻译和可视化操作(Visualized Operations)
本文从语句理解处理的角度出发,运用HNC理论的语言表述模式,对"得"字的各种意义和用法进行了探讨,考察了各义项在真实语料中的分布情况,并提出了对"得"的处理策略.
汉语中主语省略现象十分普遍,汉语主语省略句的处理对于汉英机器翻译十分重要,它需要基于篇章上下文语境进行分析,包括省略主语识别和省略主语恢复.本文首先介绍了汉英机译系统ICENT的句法语义分析,然后建立了汉语篇章上下文语境模型,制定了主语省略恢复规则,给出了基于汉语篇章上下文语境应用主语省略恢复规则恢复主语省略的算法,最后对小学语文课本实际语料进行了实验.
翻译词典对于跨语言信息检索、计算机翻译等许多领域具有重要意义.为了解决基于汉英双语语料库的翻译词典获取问题,本文首先比较了四种常见的基于共现信息的词汇对译关系计算模型,并以对数相似性模型为基础,设计了一种迭代策略和词典相结合的汉英机器翻译词典自动获取的方法.初步实验表明,该方法的确能够提高翻译词典获取的正确率和召回率.