基于生语料、最大匹配切分语料以及熟语料的中文词频估计方法

来源 :中国中文信息学会,沈阳航空工业学院 | 被引量 : 0次 | 上传用户:hankeycncn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词频估计在NLP的各个领域中都有着重要的应用,中文的特点使得中文词频估计对我们来说依然是一个严峻的挑战.其中一个主要因素就是缺少一个供我们作词频估计的"完美的"语料库.我们现有的语料库有:规模可以任意大的生语料库;由生语料库通过自动分词得到的已切分语料库;一些规模较小,由不同机构根据不同的分词标准开发的熟语料库.基于以上所有因素及已有的语料库,本文提出了一种基于折中的思想,综合利用已有信息来进行中文词频估计的方法.实验表明这一策略在多数情况下能够显著提高词频估计的准确度,但在某些情况下,这一方法的性能仍不够满意.
其他文献
文本分类的一个关键点就是如何对高维的特征集进行降维.而特征降维的常用方法就是特征选择、特征抽取等.首先介绍了几种常见的特征选择和特征抽取方法,并对这些特征降维方法的优缺点进行了分析.最后结合K-近邻分类算法对四种特征选择方法(文档频牢、互信息、CHI统计法、相关系数法)进行了分类测试,同时通过测试分析,提出了一些改进的、可行的互信息评价函数,实验结果表明,采用这种方法,在同等训练语料的情况下,分类
查询扩展是指对用户提供的有关实体属性查询的描述进行语义上同义或近义方面的扩展.针对信息检索中文档与查询之间的词不匹配问题,本文提出一种基于HTML位置信息的查询扩展方法.由于HTML文件中存在位置信息(即Tag标签信息),所以,选择HTML文件进行查询扩展,相对于选择纯文本文件来说效果更好.本文中利用现有的各大搜索引擎的搜索结果组成训练语料,且利用词项与所有查询词在局部文档集合中的共现程度来评估扩
为了提升信息检索系统性能,语义学被引入了传统基于概率统计算法的检索模型之中,本文将沿着这一思路,以HNC自然语言理解体系为基础,阐述HNC理论下,引入语义知识,逐步构建检索系统的策略.并结合已经取得的部分研究成果对这一策略进行佐证.企望能为基于语义和理解的检索系统的发展作引玉之砖.
领域句类是HNC理论根据不同语境类别--领域所蕴含的世界知识抽象得到的语句级概念联想脉络,它具有自己的句类代码和表示式,通过特定的领域词语可激活对相关领域的联想.领域句类的设计是语境单元萃取技术中不可或缺的环节,为语境单元框架的构建提供基本要素.本文在HNC交互引擎的整体思路指导下,详细阐述如何为不同领域的概念设计领域句类.最后,通过实例句群,说明领域句类的知识有助于自然语言理解的处理.
汉语句子S的全切分图记作Graph(S),意思是,该图的所有路径之集Path(Graph(S))正好表示了S的所有切分方案之集Seg(S).我们用一个正则表达式Path-Expression(S)来表示该图的所有路径之集.因此有Path-Expression(S)=Seg(S).然后我们分别给出了分解Graph(S)与Path-Expression(S)为素子图(仍然是全切分图)与素因式(仍然是路
"不是"的用法判别和处理策略研究是计算机对现代汉语进行深层处理的必要内容,对句类分析系统中词汇语义模糊的消解有重要作用.本文对"不是"的各种用法及其分布情况进行了研究,并从上下文的关联、语句的复杂程度、是否属于特定问句、对语句的语义影响等方面提出了各种用法的判别和处理规则.同时,本文对这些规则进行了验证,结果表明这些规则在应用上达到了较为满意的水平.
自动文摘一直是自然语言处理领域研究的重点和难点.本文在目前的研究状况下,进行了基于语义统计的中文自动文摘研究.主要工作包括:提出一种对HTML网页语料进行预处理的方法;利用,构建概念层次树,在文摘抽取过程中引入了语义信息:通过计算句子重要度,实现了对中文文本的自动摘要和自动索引.试验结果表明,本文提出的方法对多数测试文本都取得了良好效果,优于机械式自动文摘方法.
复句关系词的自动标注是自然语言理解领域的基础性研究课题,是层次关系标注和机器翻译等问题的研究基础.本文采用概率统计方法,建立相应的渡越矩阵研究复句关系词的自动标注方法,并进行了有效标注.标注后,对复句关系词中容易产生歧义的"结果"和"如"进行了封闭性测试和开放性测试,测试结果表明其准确率分别达到98.32%和96.41%,85%和83%.
通过对输入文本分析,划分文本的篇章物理结构,分为依次存在包含关系的章节、段落、复句、分句四个层次,用文本结构树来表示.给出了标记方法,并在此基础上讨论并实现了文本篇章物理结构的自动标引,给出了标引算法,为自动文摘后续工作给予了很大帮助.
从目前标注词性的现代汉语语文辞书中选取了较有代表性的五部语文词典,我们建成了,基于该真实语料库我们对这五部词典的词性标注差异进行了详细地考察和比较.针对标注现状,本文指出了具备一定客观性和真实性的词性标注的几项基本原则,以及词典词性标注还要保持动态的开放性.