基于HMM的百科辞典文本中知识点划分方法

来源 :第二届全国学生计算语言学研讨会 | 被引量 : 0次 | 上传用户:junjiec
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在百科全书条目文本中,往往以几个不同的侧面说明一个条目,一个侧面构成有关这一条目的一个知识点.属于同一类型的条目文本中总是重复出现有限的几个知识点,这些知识点构成了有关该类型的知识点集合,并且这些知识点在该类型中不同的条目文本中的分布有较强的规律性.在条目文本中划分出这些知识点是百科全书中知识提取过程的重要一环.本文中提出了一种基于隐马尔科夫(HMM)模型的划分方法,利用知识点在条目文本中的转移规律以及知识点的词特征分布来判断每个句子的知识点类别,从而达到划分知识点的目的.实验表明这个方法能取得较好的结果,在《中国大百科全书》地理卷的中国县市类型的条目文本中的实验结果的正确率为91.8﹪.
其他文献
专名识别是中文自动分词的重要任务.本文分析了目前流行的基本语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法.从我们对《人民日报》1998年1月、2000年12月(共约379万字)语料的开放测试结果来看,基于可信度的人名识别方法比SLM方法识别效果有较大的提高,同时比基于规则和知识库的分词系统具有更好的扩充性
本文介绍了北京语言大学应用语言学研究所在大规模动态流通语料库构建上的一些经验、相关的研究动向和开发流程.目前DCC语料库已经初具规模,在流行语研究、术语提取和字母词研究上都有很大进展,如何进一步提高利用率,为中文信息处理、对外汉语教学以及词典的辅助编撰提供资源和动力,将是我们今后努力的方向.
计算机的人名自动识别一直是个比较复杂的问题.见诸报道的多数是统计方法识别中文姓名.本文通过分析称谓语与人名的分布关系,拟在建立一个规则的姓名辨识系统,使计算机可以自动识别中外人名.
本文简要介绍了CTT软件,并介绍了利用它在简单的CFG形式化体系下做汉语自动句法分析的状况、存在问题、解决办法,提出了利用CTT开发智能的对外汉语教学软件的设想.
词义消歧在自然语言处理的许多应用领域都起着十分重要的作用.为了适用于大规模的词义消歧,提出了一种无导的学习方法.基于向量空间模型,结合机读词典和义类词典建立从义项到义类的映射关系,再利用义类知识在语料库中无导学习消歧特征,最后利用这些特性实现词义消歧.
双语词对齐是指在源、译文中找到词汇级的对译关系,是自然语言处理领域一个非常有用而又比较困难的研究课题,其中涉及词法、语法、语义以及不同语言间的固有差异和翻译习惯等诸多问题.本文在词法分析的基础上,利用有限的语言资源(主要只使用了一部双语词典),采取多级匹配和消歧算法,将词对齐问题转化为迭代求解锚点词对的过程,取得了较好的效果.经过对真实语料的测试,词对齐准确率达93.0﹪,召回率达77.3﹪,F值
本文描述了一种采取姓氏触发策略,基于最大熵模型的中文姓名识别方法.在识别过程中,首先对候选姓氏进行归类,然后对于多义候选姓氏,通过提取其上下文信息,利用最大熵模型来判断姓氏,最后识别出整个姓名,从而完成对中文姓名的识别过程.
词义消歧一直是自然语言理解中的一个关键问题,该问题解决的好坏直接影响到自然语言处理中诸多问题的解决.现在大部分的词义消歧方法都是在分词的基础上做的.借鉴前人的向量空间模型运用统计的方法,本文提出了不用直接分词而在术语抽取的基础上做消歧工作.在义项矩阵的计算中,采用改进的tf.idf.ig方法.在8个汉语高频多义次的测试中取得了平均准确率为84.52﹪的较好的效果,验证了该方法的有效性.
本文以动词次范畴化框架(subcategorization frame,& SCF for short)为句式描写,提出一种语言学知识与统计方法相结合的汉语句式转换信息自动获取方案.首先以语义相关系数为量度自动生成可能发生句式转换的候选句式对,然后依次以句式对频率和SCF句法相关系数为观察量对候选集合进行最大似然假设过滤.结果表明,自动获取的SCF句式转换对的精确率为68.37﹪,召回率达到81.
目前世界上典型通用的语言生成方法大致有四种:封装文本,基于模板,基于短语以及基于特征的方法.这些方法基本上都是针对英语提出来的,由于汉语(典型的分析语)与英语(属于印欧语系)的语法特点差异很大,它们并不完全适用于汉语.基于短语本位语法体系,综合基于短语方法的层叠思想和基于模板方法的实现结构,我们设计了一个混合模板方法用于实现限定任务领域的汉语口语人机对话系统的语言生成器.实验表明,此方法拥有相对令