中文语料库的分类与检索的研究与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:w8521843d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文语料库的分类与检索的研究对于语料库的管理和学习使用具有相当重要的意义。面对具有海量信息的语料库,人们不可能在短时间内对这些数据进行分类并获得其中所需要的内容,这迫切需要一种辅助工具来帮助人们发现、处理并管理这些信息。语料库的自动分类与检索研究就是为了满足这样一种需求而产生的。构建一个较为精确的语料库分类器需要各个环节的协同,比如训练语料的预处理、分类算法等,每个环节都会对分类结果产生影响。语料库检索系统应该提供查询界面供学习者查询,并提供查询结果界面。本文研究发现,现有的语料库检索系统对于结果的显示都是集中的列表显示,这样并不利于语料库学习者有效地利用语料。   为了构建一个更为精确的语料库分类器和更有利于语料库学习者利用语料的检索系统,本文做了以下研究工作:   1、改进特征权值算法。本文详细分析了特征处理过程中的特征权值算法,对TFIDF算法进行了深入地研究,发现TFIDF的不足之处,并结合相关文献,提出新的特征权值改进算法一基于文档分布的TFIDF算法。此算法引入了文档在类间的分布情况作为赋值依据:若包含某个特征t的文档在类间分布不均匀,则t是具有较好的类别区分度的,应该赋予较高权值.若分布非常均匀,则t不具有较好的类别区分度,应该赋予较小权值。   2、将反馈算法引入自动分类中。反馈是被控制的过程对控制机构的反作用,这种反作用影响系统的实际过程和结果。系统根据反馈信息对自身进行调整,使系统更加完善。现有的分类器只训练一次,分类性能就固定不变了,若要提升分类器的分类性能,可以对分类器进行反馈。本文提出在中文语料库自动分类器中加入反馈模块,使分类器通过加入新的反馈学习样本以提高自动分类器的分类性能。   3、构建具有分类显示功能的中文语料库检索系统。分类的过程是将形态各异的同类事物归并起来,这看似一个很简单的行为,其实背后是一个复杂的思维过程,需要分析、综合、抽象、概括等一系列的思维活动,从这个意义上说,分类能力的提升本身就是对思维能力的锤炼。比起一团糟的无头绪的信息,分类却使得人的思路变得开阔。分类如此重要,所以,语料库检索系统也应该可以把查询结果以分类的形式显示给用户,这样的显示才显得更有意义。本文提出构建一个具有分类显示的语料库检索系统,并在开源框架Lucene的基础上进行开发实现。   最后,在本文构造的自动分类器上对上述两个算法进行实验,验证了算法对提高分类精确度的有效性。
其他文献
随着互联网技术的迅猛发展、科技知识的日新月异,人们对网络探索的需求与日俱增,在这样的情况下,Web上的站点和网页的数量呈现出以一种爆炸性的趋势飞速增加。按照获取信息的
近年来,Internet发展迅速并已渗透到生活的各个角落,Internet上蕴藏着大量的各类新闻信息,传统的新闻获取方式受到极大的挑战,人们进入了一个“信息爆炸”、“新闻过剩”,而“新闻
在数据时代,可视化系统开发的需求越来越大,如何制定可视化系统开发的范式已经成为一个热门的研究问题。本文从软件工程的角度出发,提出针对可视化系统开发的嵌套增量模型,帮
目前市场上各个行业对客户关系的重视程度越来越高,只有充分了解客户需求,才能更准确的提供相应的产品和服务,使利润最大化。而这其中最基本的要素便是数据挖掘中的客户分群,
随着Web服务技术的迅速发展,越来越多的Web服务运行在Internet上,但单个Web服务功能有限,难以满足日益增长和不断变化的用户需求。因此,如何将已有的、运行在异构平台上的Web服务
近些年来,随着软件系统规模的庞大、复杂,软件系统功能的改进,软件版本的不断更新,人们对软件质量的要求也不断提高。软件可靠性作为衡量软件质量的关键性指标变得越来越重要。本
在人们不断加深对网络应用的依赖性的同时,网络的可用性逐步成为人们关注的重点。其中让网络管理人员广为熟知却难以应对的网络可用性攻击之一便是DDOS攻击。在复杂多变的网
智能交通系统是利用尖端的电子通信技术,形成人员、公路和车辆三位一体的新公路交通系统的总称。交通管理与控制系统是智能交通系统领域当中一项重要的研究内容,而交通流量预
光在自然界传播时,由于物理规律以及不同物质具有不同的折射率散射率等光学特性,就会产生丰富多彩的视觉效果,比如阴影、表面高光、环境光遮挡以及一些材质的半透明效果等。
人脸识别技术是一种重要的生物特征识别技术,因其友好、直接等使用特点已广泛应用于安全、商业等许多领域。人脸识别系统涉及大量数据的比对操作,对于人脸数据库较小的识别系统