文本层次分类技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tuyffgfd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在全球范围内的快速发展,人们面临的信息呈指数增加。面对Internet上信息的纷繁芜杂,如何快速、准确全面获取信息,文本的分类技术作为一种有效组织信息,方便信息定位的技术,在近十几年获得了长足的发展。现实的分类体系更多的具有层次性的关系,因此,层次性分类体系下的文本分类具有很好的应用价值。一般层次分类中的类别以目录树的形式组织,形成分类体系的层次关系,层次文本分类采用的是一种分治的策略,整个分类过程从根节点开始,待分类文档分配到一个或者几个子分类树节点下,重复该过程,直到不能继续分类或者到达叶结点为止。本文的主要工作如下:(1)提出了一种多分类器融合的文本分类方法。通过引入可信度函数,选择出主分类器较难判决的文本,通过辅助分类器,对单一主分类器不易判决的文本通过多分类器投票方式进行判决。实验表明,该方法有效地提高了最终分类的准确性,时间开销较单一主分类器只有少量增加,在平面分类与层次分类语料集合上,获得了较好的效果,显示了很好的应用性。(2)应用多重特征选择与多分类器融合方法实现层次文本分类。本文针对层次性分类体系的特点,应用多重特征选择方法,针对不同层次,对不同的子分类任务采用不同的特征空间,更好地代表参与子分类任务的类别,使其具有更好的可区分度,同时将多分类器融合方法应用于此,在实际的测试中获得了较好的应用效果。(3)将多分类器融合的方法应用于文本倾向性分类判别。在篇章级的文本倾向性判别上,本文提出了一种基于多分类器融合的文本倾向性判别方法,针对倾向性分析任务,假设包含不同倾向性观点的文章中褒贬词汇的分布的不一致性,从Hownet中选择出有倾向性的词汇,并应用特征选择方法选择出部分倾向性词汇,与常规方法获得的非倾向性词汇构成混合特征空间,并在实际测试中取得了较好的效果。在针对特定领域的倾向性判定中,获得了较高的效果,具有较好的应用前景。
其他文献
传统的无线传感器网络中,中间节点只对数据包进行转发,而结合了网络编码后,中间节点会对收到的数据包先进行编码后再进行转发。结合了网络编码的传感器网络对数据包的传输成
学位
近年来,自然景物的模拟一直是计算机图形学领域最具挑战的问题之一,作为自然景物之一的海洋,约占地球表面总面积的70%,是一个巨大的水体,有着丰富的物质资源,是天然的交通平
Grover量子搜索算法具有优于经典算法的效率和搜索问题广泛适用性,以密码学为基础的信息安全关系到国防和金融安全,开展Grocer搜索算法的相关理论研究意义重大。论文着重研究了
随着经济不断的发展,越来越多的企业已经意识到市场的竞争已经不仅仅存在于产品质量、产品价格等方面,而是开始从产品逐步的转入了以服务为中心的竞争阶段。呼叫中心(Call Ce
无线传感器网络综合了传感器、嵌入式系统和无线通信等技术,是目前国内外研究的热点领域之一。随着无线传感器网络应用的逐渐推广,传感器网络的性能参数测量也就受到了越来越
伴随着计算机技术的迅猛发展以及互联网的快速普及,人们所接触的数据量(包括有结构和无结构的文本数据)呈现爆炸式增长。当前,如何有效快速地从海量数据中挖掘出有价值的信息具有
视频语义自动标注是基于内容图像检索(CBIR)中很重要且很有挑战性的工作。由于计算机对图像信息的理解和人对图像信息的理解存在着客观区别,检索系统中就难免存在计算机认为
任务调度问题是计算机科学研究的基本课题,多核系统的出现为任务调度问题带来了新的变化。多核系统的任务调度问题首先考虑能否在保证任务得以完成情况下,寻求分配方案使得处
随着自动化测试技术的不断发展,很多公司都为自动化测试开发了专业的测试软件。但是不同的自动化测试软件,所能够识别并运行的自动化测试脚本都是基于完全不同的语言。也就是