结合本体HowNet的中文文本分类研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:haohailinbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术和信息技术的迅速发展不但使得网络上的电子文本数量急剧增加而且改变了人们获取信息的方式。如何对这样数量庞大的电子文本进行有效的组织管理以方便人们快速、准确而全面地获取潜在的、有价值的知识和信息是信息处理技术的一项重要课题。文本分类技术作为解决这一问题的关键技术之一,已经成为信息技术领域的主要研究方法。同时,作为信息检索、信息推送和信息过滤等领域的基础技术,文本分类有着重要的学术价值和广泛的应用前景。对高维特征集合进行降维,是文本分类的关键技术之一。进行特征降维的目的是:通过有效的选择方法留下那些最具有类别区分能力的特征项,构成能够表现文本内容的最优特征子集。现有的基于词频统计思想的特征选择方法存在的问题包括:一是忽略了特征项本身的语义信息,即它和类别之间的语义联系;二是特征项之间存在语义冗余;三是语义冗余使得维数有限的特征空间无法容纳更多的对分类有用的特征项。在分析现有特征降维的思想和方法的基础上,本文重点探讨结合本体的特征降维方法。本体是对某个领域知识的系统描述,描述对象包括概念以及概念之间的关系。因此,把本体引入到文本分类的研究中,可以解决传统的文本表示模型和特征选择方法所存在的语义问题。在学习和研究中文本体HowNet的基础上,本文提出一种基于概念映射的二次特征降维方法。先利用传统的效果较好的特征选择方法选出一个候选特征集合,再利用HowNet对候选特征进行概念映射操作,最后进行第二次特征选择得到最终的特征子集。这样既保持了向量空间模型在文本形式化及数学计算方面的优势,又使选出的特征项尽可能携带语义信息并在一定程度上消除特征项之间的语义冗余,从而更符合特征选择的初衷----选出能表现文本内容的最优特征子集。因此,本文提出的特征选择方式并不是针对某一种具体的特征选择方法所做的改进,而是就特征选择这一问题本身进行的一些探索。最后,在中文文本分类实验平台上通过多组对比实验来考察本文提出的基于概念映射的二次特征降维方法的有效性。采用查全率、查准率和F1值等指标分析实验数据。结果表明本文提出的二次特征降维方法的效果优于传统的特征选择方法。
其他文献
传统的神经网络学习算法(如BP算法)在实数域和复数域中存在局部极小、收敛速度慢、难以求得全局最优点、权值是常数,难以反映样本的信息等缺陷;并且在实际应用中传统神经网络
当今企业发展的核心资源是人力资源,而薪酬管理是人力资源管理的一项重要内容。所谓薪酬管理是指组织管理者对员工的薪酬形式、薪酬结构、薪酬水平、薪酬等级、薪酬标准等内
近年来,虚拟机技术由于能够很好的屏蔽底层硬件资源的异构特性,具有提高资源使用效率,增强系统弹性和扩展性,减少硬件投资及管理维护成本等诸多优势而被广泛的应用于资源服务整合
节能环保是当今汽车领域中最重要的主题,燃料电池电动汽车、混合动力汽车、纯电动汽车和氢发动机汽车等都是应运时代主题而生的新能源汽车,其中混合动力汽车是目前最具有产业
在卫星网络体系中,不在同一个平面上的卫星会因为卫星间的相对运动不断的建立连接和断开连接,这使得卫星链路的连接很不稳定。星上资源相对有限,这使得卫星在进行高QoS的通信
集成学习是被广泛应用的学习技术之一,它通常需要训练多个基学习器。而已有的应用及理论研究表明,删除集成系统中一些冗余或者分类性能较差的基学习器,可以有效提升集成学习
信息技术的发展催生了一个新的概念-物联网。物联网及其相关技术的飞速发展为我们的生活带来便利,也为绿色校园建设带来了新的机遇。物联网技术已经在楼宇控制、交通、电力等
数码相机的普及和图像编辑处理软件的广泛使用推动了图像篡改伪造技术的迅速发展,利用数字水印和数字签名的预先在图像中嵌入信息的数字图像主动取证技术在新的环境下已显现
随着信息技术的发展,大量体积小、低成本,具备感知计算能力的设备得到普遍应用。多数情况下,数据可以经由传统的路由-交换方式进行有效传输,但是在一些没有架设基础通信设施
根据移动支付的应用需求,将ECC算法和PKI体系引入到移动支付系统的设计中。ECC算法有快速、安全且硬件要求低等优势,相比其他公钥密码算法更适宜应用于移动支付。PKI技术是一