结合仿射空间和正交分解的类中心分类法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:ming20080904
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从大量繁杂的文本信息中获取有用的信息是信息处理的一大任务,而文本分类是实现这个任务的最重要的方法之一。向量空间模型是进行大规模文本处理常用的表示模型,而类中心分类法是向量空间模型中一种非常有效的分类方法,计算文档向量和每个类别中心向量的相似度,其中相似度最大值所对应的类别,就是文档的所属类别。向量空间模型有两个固有的缺陷:高维的向量和扭曲的空间。在各类文本挖掘和检索技术中,一般利用欧式距离来计算文本向量之间的相似程度。文本特征空间是个非常复杂的空间结构,而各个坐标之间也并不是平等的,概念之间的语义有不同程度联系。而经典的欧氏距离应用的前提条件是每个坐标对于计算欧氏距离起着相同的作用,按照经典的欧氏距离进行计算会导致空间形状的扭曲和变形。本文针对传统向量空间中特征项不独立导致的计算误差原因进行研究,发现在坐标系独立的笛卡儿直角坐标系中和坐标系不独立的笛卡儿斜角坐标系或者说仿射坐标系中两向量内积计算上存在差异,这必然导致用向量内积来计算的两向量的相似度在传统的向量空间中存在误差。针对传统向量空间由于特征项不独立导致的计算误差,本文对传统向量空间中的类中心分类法引入仿射空间概念。但直接在以特征项为维的向量空间内引入基于仿射空间的相似度计算的改进又无疑大大增加了计算的时间的复杂度,对此本文引入可以降低计算维数的正交分解模型,将由于特征项不独立导致的计算误差研究转化为改进类别不独立导致的计算误差的研究。正交分解和仿射空间中线形变换存在着对应关系,由此本文提出了基于正交分解的类中心分类法以及基于仿射空间和正交分解的类中心分类法。为了验证本文提出的基于正交分解的类中心分类法和基于仿射空间和正交分解的类中心分类法有效性和可行性,为验证基于仿射空间的改进是否能有效降低由于类别不独立导致的计算误差,本文对基于正交分解的类中心分类用于中文文本分类的效果和基于仿射空间和正交分解的类中心分类法进行了对比实验。实验结果表明无论从整体混淆矩阵、总体查全率、查对率、以及各个类的查全率、查对率方面,基于仿射空间和正交分解的类中心分类法都要优于基于正交分解的类中心分类。同时本文提出的三个类中心分类法的改进算法的分类效果都要优于传统的类中心分类法从而验证了本文对传统类中心分类法的改进,是有效的可行的。
其他文献
寻求新型有效的压缩方法始终是数字媒体领域的关键问题之一。基于内容的压缩代表着新一代的压缩方法,也是本课题所提出的冗余内容压缩方法的来源。传统的数据压缩算法中,通常没
网络环境下,多样化的传播途径和复杂的应用环境使网络蠕虫发生频率增高、潜伏性变强、覆盖面更广。不断给网络造成的巨大危害表明,传统的防病毒技术已不能满足网络蠕虫防治的
与文本无关的说话人识别的研究,由于其实用性,成为当今语音识别领域中的热门课题,经过几十年的发展,已经取得了巨大进展。尽管在实验室环境下,说话人识别系统已经取得了比较
学位
在生物信息学研究中,蛋白质二级结构预测是重要的研究内容之一。从氨基酸序列来预测蛋白质二级结构,这本身就是我们理解蛋白质结构和功能的重要一步。在分子生物学中,若能成
随着无线射频识别(Radio Frequent Identification, RFID)和传感器等电子数据采集设备(Electronic Data Gathering Equipment, EDGE)的广泛应用,产生了空前海量的事件类型数
近年来,随着互联网的普及,音频流媒体以其低成本和方便性得到了广泛的应用。但是现在的因特网只能提供被称之为尽力而为(best-effort)的服务,网络的拥塞将导致丢包和延迟现象
互联网信息技术和电子商务的日新月异,使得方便快捷的网络购物成为一种不可或缺的购物方式。网络上的服饰商品数量类型繁多,怎样从中有效地搜索到目标商品是决定消费者是否发
随着网络技术的发展和普及,计算机系统的安全性越来越受到人们的关注。由于计算机系统存在多种安全性缺陷,所以在计算机系统的设计和开发过程中,如何测试系统的安全性,是开发
本课题来源于国家自然科学基金资助项目——“基于Ontology的文本中空间关系的三维可视化研究”(简称文景转换),该项目以基于Ontology的自然语言文本到相应的三维动态虚拟场