基于支持张量机的中文文本分类研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:kenkenson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于机器学习的文本分类是自然语言处理领域的重要研究方向之一,能够帮助人们快速、准确地进行信息的获取。目前大部分机器学习算法采用向量形式进行数据的表示。相比之下,采用张量形式进行数据的表示能够更多地保留多模态数据的内在结构信息,并且在面对高维小样本数据时,有着更强的泛化能力,因此近年来基于张量数据的机器学习算法愈发受到研究人员的重视。本文围绕支持张量机与文本分类两个主题进行展开,着重研究了支持张量机模型的优化,以及优化模型下,文本张量空间模型的构造问题。主要包含以下几部分内容:1.提出秩r支持张量机模型。该模型针对秩一映射支持张量机与支持向量机的优点与局限性提出。采用秩约束的方式控制学习模型参数个数,用于处理不同的训练集。针对不同的张量秩定义,给出了CP秩与Tucker秩下的等价模型,以及相关优化问题的解法。2.提出了秩r支持张量机近似最优秩约束的一种解法,该解法基于对秩r支持张量机求解过程中交替投影过程的实质的分析。3.提出采用正负相关特征的权重降序交替列填充法,构造张量空间模型。该模型构造方法基于对文本分类中特征权重分布情况的分析。4.设计了一套可行的中文文本分类系统。该系统结合了以上三点内容以及常见文本分类技术。系统先通过对文本的预处理、特征选择等流程对文本进行向量化表示。通过在SVM上初步训练,得到优化的张量空间模型与近似最优秩约束,进一步得到文本的张量化表示。最后输入秩r支持张量机进行训练,并在测试集上评估。本课题研究成果可用于文本的主题分类。研究重点是对支持张量机以及张量空间模型的优化,具有较高的可扩展性,因此对诸如人脸识别等其他领域的机器学习算法也有较为可观的借鉴意义。
其他文献
随着国家经济的高速发展,煤炭等不可再生性化石能源被大量燃烧利用,同时,燃烧过程会产生大量的污染性气体,对环境造成无法逆转的危害。因此,新能源的开发与利用逐渐引起人们
基于蒙特卡罗积分方法的渲染器由于其灵活性以及普遍性,在渲染真实感场景、计算机动画制作以及视觉产品生成等方面有着广泛的应用。由于这种方法仅能随机地对有限的光线路径
许多大气气溶胶颗粒都会带有一定程度的多余电荷,研究表明沙尘颗粒带电量可达上千微库仑每千克。沙粒在空中运动,由于携带多余电量,在空中产生强风沙电场,从而使带电沙粒受到
图像分类问题一直以来都是计算机视觉领域中一个十分热门的研究课题。无论是日常生活,还是医疗诊断、军事活动,图像分类都起着十分重要的作用。互联网的普及,电子设备的更新
随着信息时代的进步,人们获取多媒体信息日益便捷,视频娱乐也渐渐成为了人们生活中不可缺少的一部分。而视频处理软件的进步使得视频篡改的技术成本大大降低,致使现在被篡改视频随处可见。在此情形下,除了需要提高网络内容监管力度,更需要对篡改视频进行有效的检测。所以无论是从理论研究价值考虑,还是从社会价值考虑,对视频篡改检测算法进行研究是非常有必要的。视频复制-粘贴是一种常见的视频帧内篡改方式,此篡改能在视频
欠驱动TORA(Translation oscillators with rotating actuator)系统是具有强耦合的非线性系统,控制力仅为电机的驱动力,而被控自由度有两个,即框架位移与电机摆角;TORA系统要
量子阱红外探测器(QWIP)是20世纪末发展起来一个新技术,与其它材料的红外探测技术相比,它具有可重复性高、加工工艺成熟、均匀性好、响应速度快,探测波长范围广,探测的波长可以通过调节量子阱的参数加以控制等优点。通过半导体工艺可以制备出高品质、大面积均匀的量子阱材料,容易做成焦平面阵列,常用在成像系统中,在国防,工业,医学等领域有广泛的应用。自从贝尔实验室研制出第一个QWIP以来,其技术得到快速的发
主动容错控制(Fault-tolerant Control,FTC),是一种系统元件在运行时发生故障的情况下,通过对所发生的故障进行补偿的方式,来确保系统能够安全、可靠、正常稳定的运行的控制
以风沙运动为标志的土地荒漠化及其引起的沙尘暴等灾害,是21世纪重要的环境问题。而对这一典型气固两相流体的动力学求解,面临着诸如Navier-Stokes方程的非线性、湍流运动的
目标检测任务是通过计算机从采样得到的图像或视频中快速,有效寻找感兴趣目标并对其定位,给出所属类别。目标检测作为计算机视觉的一个基本问题,也是当下的热点问题、难点问