【摘 要】
:
文本数据大多数是非结构化数据,如何有效处理和准确表达文本的原始信息在文本分类任务中是首要前提,从非结构转化为结构化数据的过程一般称为文本表示.现有的向量空间模型存在高维稀疏性、缺乏语义信息等缺点,因此对具有语义结构和类别信息的文本表示模型进行深入研究是十分必要且有意义的,并在文本分类任务中验证其表示模型的有效性.具体工作概括如下:1.基于词嵌入组合的文本表示模型的一般方法是直接对词嵌入加权平均,使
论文部分内容阅读
文本数据大多数是非结构化数据,如何有效处理和准确表达文本的原始信息在文本分类任务中是首要前提,从非结构转化为结构化数据的过程一般称为文本表示.现有的向量空间模型存在高维稀疏性、缺乏语义信息等缺点,因此对具有语义结构和类别信息的文本表示模型进行深入研究是十分必要且有意义的,并在文本分类任务中验证其表示模型的有效性.具体工作概括如下:1.基于词嵌入组合的文本表示模型的一般方法是直接对词嵌入加权平均,使得类别信息对分类性能的贡献被弱化,对此提出一种基于类语义结构的表示模型.该模型将文本类别信息融入到文本表示过程,使文本表示模型具有语义信息又保持类别结构.该模型先把词嵌入空间划分成不同的类子空间,并在每个类子空间中选择对类别有代表性的特征词,再将特征词对应的词嵌入进行组合得到类特征向量,最后将所有的类特征向量进行级联形成文本的向量表示.该模型分别在长文本和短文本分类中进行实验验证,结果表明与其他加权词嵌入模型相比得到了更优的分类性能.2.针对文本分类中高维文本表示的降维问题,提出一种基于类邻域字典的线性回归分类方法.该方法在线性回归分类方法和K-近邻方法的基础上,对每个类别的训练样本分别选择测试样本的K个近邻构成各类别的子邻域字典,并根据不同的学习表示方法提出了在由各个类子邻域字典连接得到的级联字典学习下对测试样本的线性表示(CCND-LRC)模型和分别学习测试样本在每个类子邻域字典下的线性表示(CND-LRC)模型.此外,为缓解噪声数据对分类性能的影响,设计了一种类相关度测量,通过度量测试样本与各个类别之间的相关度对噪声类数据进行裁剪.实验结果表明CND-LRC模型与其他稀疏表示方法相比,特别是在长文本中具有更优的分类效率和分类性能,基于噪声类别裁剪的CND-LRC模型在类别较多的文本中具有更明显的结果.
其他文献
近几年随着现代计算机技术的发展和移动互联网技术的进步以及手机摄影的普及,从摄影到图像美化的快捷使用已经成为了一种趋势,随拍、随处理、随分享已经在生活中的方方面面有所体现。因此手机应用拍摄美化技术也得到了很大的提升,而图像美化是拍摄美化中的第一要义,人们对拍摄美化的需求越来越多,处理的更加丰富和精细,同时又需要更易懂易操作的方式。现在拍摄美化的应用也越来越趋于同质化,在本质的功能上没有过多的改变,在
在自然材料中,几乎所有材料都是由原子周期性排列组合而成,所以原子通常也被认为是组成物质的最小基本单元。想要通过修改原子的方式来达到设计新型材料的目的在现阶段是难以实现的。然而在人工电磁超材料领域,能够通过设计基本结构单元来获得特殊物理性质,这无疑给人工晶格材料的性能设计提供了一种新颖的思路,即在人工晶格中引入电磁拓扑结构单元以获得新颖的电磁特性。本文提出以一种拓扑非平庸的手性结构—莫比乌斯纽结作为
现代技术的发展为移动信息服务提供了技术支撑,也为图书馆业务向移动服务模式拓展提供了契机。移动图书馆服务成为图书馆发展新方向,受到国内外众多研究者的重视。包括高校图书馆在内的各大图书馆投入众多资源进行移动图书馆服务建设,然而目前其实际使用效果并未达到预期,存在用户使用率偏低、认可度偏低、热情度偏低的情况。高校移动图书馆服务系统作为一种新兴的信息系统,需要取得以大学生用户为主的用户群体的使用热情,才能
合作对策作为对策论的一个重要分支,其核心问题是如何分配合作所带来的利益,即求合作对策的解.鉴于求一般合作对策解的复杂性和图论中简洁的论证,将合作对策和图论结合起来,研究图上合作对策.自从Bird于1976年定义了最小费用支撑树对策以来,已有大量的文献来研究图上合作对策.本文在图上定义了一种新的合作对策——最大收益支撑森林对策,它不存在源点.参照最小费用支撑树对策中已有的结论,本文给出了最大收益支撑
本学位论文研究了一类非自治时滞抛物型方程的解在不同边界条件下的渐近性态.对于作用在时滞抛物型模型上的非自治外力项,放宽了通常的平移紧条件,而代之以更弱的平移有界及对时间积分的绝对连续性条件,得到了一致吸引子的存在性.本文共分四章:第一章简述了动力系统理论的发展情况以及无穷维动力系统的研究背景,介绍了过程的概念,一致吸引子的定义及其存在性的证明方法等.第二章研究了一类具有平移有界非自治外力的时滞抛物
基于空间五阶精度加权紧致非线性格式WCNS,数值求解非定常Euler/N-S方程,模拟飞行器单自由度强迫/自由俯仰振动非定常流场,研究了高精度格式下非定常“双时间步”方法子迭代收敛性、子迭代参数选取问题,以及非定常方程时间导数离散精度问题、高精度流场与飞行器运动的不同耦合算法问题。最后将高精度非定常算法应用到非定常动态稳定性导数的计算中。研究表明:1.采用“双时间步”方法的高精度格式在非定常计算时
重量是飞机的一项重要指标,与飞机的飞行安全、使用性能、制造成本、运营成本等多个方面息息相关。飞机线束作为传输飞机电信号的运载工具,是整体系统正常运行的重要保障。随着飞机功能的增多,对飞机线束的需求也越来越多,导致飞机线束重量大幅增长,为了给飞机减重,飞机线束的轻量化设计应运而生。本文根据飞机线束重量影响因素和重量设计原则,提出了线束轻量化设计的几种主要方法,为线束方案的重量研究提供了支持,对飞机线
本论文以自媒体信息遮蔽现象为研究对象,依凭以麦克卢汉媒介学说为基础形成的“媒介现象分析理论”、“教养理论”和“把关人”理论,从生成原因、本质与特征、影响效应三个维度展开探究,以形成对自媒体信息遮蔽现象的整体性把握,获得促进自媒体健康发展的一些重要启示。“遮蔽”一词,德文为“Verbergung”,英文为“Concealment”,汉语翻译为“遮蔽”,是20世纪思想大师海德格尔哲学中最重要的学术术语
脑机接口是一种新兴的通讯方式,允许人类与机器之间进行非物理通信。作为一种新兴技术,存在许多不足之处,比如信息传输速率较低、易用性较差等。本文针对这两个问题,在脑机接口相关算法领域展开研究。结合脑机接口的生理学基础,对四种运动想象脑电信号在时域、频域和时频域上进行对比分析和了ERS/ERD分析,分析总结不同运动想象脑电信号之间的差异性。对脑电信号采用不同进行预处理,通过对比效果选定预处理方法。针对易
随着设计的内在意蕴愈发受到关注,文化设计成为产品设计的重要方向之一。产品具备功能性的同时,如何精巧地塑造文化意象以传达出丰富的文化气质和文化底蕴成为设计领域的热门问题。设计师在进行产品文化设计时,不能只拘泥于视觉元素的表达,还需要对传统文化的审美观念和文化意象进行深入地剖析提炼并融入到产品设计中。本课题聚焦茶文化意象与电子商务类移动应用产品,针对当前茶文化意象塑造不足、设计同类同质化、相关界面的风