【摘 要】
:
随着Internet的急速普及,短信、微博、论坛等短文本形式的信息急剧增长,短文本的出现对文本研究带来了新挑战。由于短文本数据量异常庞大,数据中包含人们对社会现象的观点和
论文部分内容阅读
随着Internet的急速普及,短信、微博、论坛等短文本形式的信息急剧增长,短文本的出现对文本研究带来了新挑战。由于短文本数据量异常庞大,数据中包含人们对社会现象的观点和态度,话题涉及政治、金融、文娱等众多领域,通过对这些类型各异的短文本进行研究,能够为话题跟踪与发现、互联网信息监管、流行语分析、舆情预警与舆论引导工作等领域提供相应解决方案。通过对现有短文本表示及分类现状总结分析,本文主要在短文本表示和分类两个方面展开深入研究,并取得如下研究成果:1.基于语义特征空间上下文的短文本表示学习方法针对传统短文本表示高维稀疏问题,提出基于语义特征空间上下文的短文本表示学习方法。该方法考虑到初始特征空间维度过高,首先从统计和深度学习两个角度综合计算词项间初始相似度,依据初始相似度并对词项进行聚类,利用聚类中心表示降维后的语义特征空间。然后,在聚类后形成的簇上结合词项上下文信息,设计三种相似度计算方法分别计算待表示文本中词项与特征空间中特征词的相似度,以形成文本映射矩阵从而对短文本进行表示学习。实验结果表明,该方法能较好地反映短文本的语义信息,能合理、有效地表示短文本。2.熵权约束稀疏表示的短文本分类算法与通过扩展短文本或利用附加信息规避短文本稀疏性问题的分类方法不同,提出熵权约束的稀疏表示短文本分类算法。构建稀疏表示字典,针对原始字典维度过高且存在冗余数据等问题,首先利用Word2vec工具将字典中的词表示成词向量形式,根据加权向量平均值对原始字典进行降维。其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,从而对字典进行过滤。再次,在过滤后的字典上,为目标函数设计熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数最优值,从而得到每个类的子空间。最后,在学习到的子空间下,计算待分类短文本与每个类中短文本距离,并根据三种分类规则对短文本进行分类。在真实数据集上设计实验进行验证,结果表明提出的方法能明显提高短文本分类效率,且优于现有短文本分类方法。
其他文献
《最高人民法院关于适用若干问题的规定(四)》(以下简称《公司法司法解释(四)》)于2017年9月1日实施,该解释第四至六条的规定完善了我国公司决议瑕疵之诉的种类,在公司决议无
屏蔽式核主泵被广泛用于舰艇等小型核动力装置和部分第三代先进核电站反应堆。小型核动力装置用屏蔽式核主泵冷却循环系统中的屏蔽套、双向蛇形冷却循环管和辅叶轮等部件在运
图像分割是计算机视觉和模式识别领域中一项关键的预处理技术,是一个把图像按照一定规则划分为若干个区域的过程。传统的分割方法都有其局限性已不再适应于当今多样化的应用
低功耗蓝牙自组织网络(以下简称蓝牙mesh)是低功耗蓝牙的一种全新拓扑结构的网络。蓝牙mesh网络利用基于传统泛洪算法的路由协议进行数据包的传输,模式简单。但是,采用这种传统泛洪式的广播会造成网络中节点的不必要转发,从而导致节点以及整个网络的能耗较大,这对电池供电、网络数据量较大等mesh网络而言是不适用的。因此,设计并实现合适的路由协议,以优化网络中的能耗,对扩展蓝牙mesh的应用范围有着重要的
基于扩散磁共振的脑白质纤维成像技术是目前研究及分析白质纤维结构的基础,是当前脑科学中的研究热点。在白质纤维成像技术中,传统的纤维跟踪和纤维成像分析方法已经难以满足
番茄(Solanum lycopersicum)是世界范围内重要的蔬菜作物。高产是重要育种目标之一,而果实重量是单株产量的主要构成因素。果实重量是一个数量性状,由多个遗传位点(quantitative
采用接近黄土颗粒粒径的人工制备胶结性土进行试验并分析,能够为黄土胶结特性的一般规律提供参考。基于黄土的结构特性,本文采用100目、200目和325目三种粒径的玻璃微珠作为
聚类算法在数据挖掘、模式识别和机器学习等领域有着广泛的应用,它是数据挖掘技术中的重要组成部分。海量数据的出现,使数据挖掘技术的应用层出不穷,其中聚类分析是大数据处
以高角分辨率弥散成像(High Angular Resolution Diffusion Imaging,HARDI)为典型的核磁共振成像技术已经发展得比较成熟,给人类大脑白质神经纤维结构的无创检测带来了良好的
随着城市化和工业化进程加快,PM2.5现已成为影响环境质量的重要因素。作为“汇景观”的绿地在很大程度上可以削弱PM2.5的浓度,其中公园绿地的空间布局、聚集程度等格局形态会