短文本的特征化分类方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:jwh777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术能够有效地管理海量的文本数据,现在文本分类技术已经有了良好的发展。近年来,随着互联网技术的飞速发展,很多社交平台也应运而生,比如微博和微信等已成为人们日常交流的主要渠道,而其中的文本蕴含着巨大的信息量。这些简短的文字被被企业或研究人员研究,进行文本情感分析是其中的一个研究方向。短文本的特点一是数据稀疏性,特征空间中的特征数相对于一个短文本十分庞大,短文本的特征向量十分稀疏;二是特征的维度高,由于特征数目多,特征空间的维度非常高;三是由于短文本的简短,导致特征表达信息能力不足。由于这些特点的限制,在短文本中使用传统的文本分类方法不太可行。尽管近年来对短文本分类算法进行了很多研究,但是在当前科学技术高速发展的背景下,短文本的快速增长是时代潮流。关于它的研究还不落伍,短文本分类技术在原有的基础上还可以做出很大的提升。本文针对短文本这三个特点,建立了一种短文本的特征化分类模型。先对短文本的文本特征进行特征扩展,然后提出了一种短文本特征的组合加权方法,最后训练分类器。该模型可以有效提高短文本的情感分析正确率。提出了一种基于频繁词集的特征扩展方法。定义了单词的情感类别倾向性和单词间的情感同向关系,通过计算词集的类内支持度和词相关度,提出了一种改进的Apriori算法,使得挖掘出的二元频繁词集具有情感同向关系。对于短文本中的每个单词,从总的词集中寻找包含有该单词的二元频繁词集,将其作为扩展特征加入文本向量中。最后在SVM分类器上训练分类模型。通过实验对比来说明改进的Apriori方法对比原方法的有效性,也通过实验证明了基于频繁词集的特征扩展方法能改善短文本的数据稀疏性并且提高分类效果。提出了一种短文本特征的组合加权方法,可以有效提高特征的表达能力并且降低特征空间的维度,从而提高情感分析正确率。以随机森林为基础评估特征对于情感的贡献度并排序,进而依排序来进行特征选择;继之,考虑特征在文档中的重要性,以特征在文档中的重要性和情感贡献度确定该特征的权重。最后在不同的分类器上训练分类模型,对比基准方法该方法成功的提高了短文本的情感分析准确率。并且在特征扩展的基础上,使用该方法会得到更好的正确率和F值。本文详细的介绍了模型的建立和模型所使用的方法。从物理意义和实验结果说明该模型的可行性和有效性,很好的解决短文本的数据高疏性、特征高维度和表达信息能力差的问题。
其他文献
目的:对PD患者(试验组)及正常对照组进行EEG检查,寻找PD患者和正常对照组脑电功率谱区别,同时分析PD患者组(试验组)的脑电功率值和PD患者临床特点的关系,以期发现影响功率谱变化的相关因素。本研究试图通过简单易行的EEG检查,一方面为PD早期诊断提供可能新的线索;另一方面对PD部分与大脑皮层改变相关的非运动症状提供可能的早期预警。材料和方法:1.选取2018年5月-2018年11月于天津医科大
十八大后,国内新一轮国企改革持续推进,在国有企业的混合改制以及企业并购重组的实施操作过程中,同时面临着企业资产的划拨以及企业人员和组织架构的拆分,而后者在重组过程中
目的:肝细胞肝癌(hepatocellular carcinoma,HCC)为原发性肝癌最常见类型,为消化系统常见的恶性肿瘤,全球范围内,HCC在恶性肿瘤中发病率居第六位,也是导致癌症相关死亡的第三大原因。近年来,全球范围内糖尿病患病率迅速增加,我国成人糖尿病患病率已达10.9%。有研究表明,糖尿病促进了HCC的进展,使患者预后更差、生存期缩短,糖尿病不仅是肝癌的独立危险因素,更是增加了肝癌的死亡
随着大众消费能力的提升,个性化穿着是人们展现自我的趋势,为了突显个性、突出自我,越来越多的人开始选择定制服务。本文的研究是基于课题组为山东如意集团研发的一套3D虚拟服装定制平台,已实现面料、版型的变换和虚拟展示功能。本文将建立用户自身虚拟人体头像模型,并融入到3D虚拟服装定制平台中,从而提升用户体验。在保证较高扫描精度和速度的前提下,本文提出采用两台Kinect二代深度相机完成三维人体头像模型重建
近年来,我国高速公路建设功勋卓著,成绩斐然,山区高速公路总里程也在稳步提升,高填方路基常作为山区高速公路重要组成部分,但由于其填方较高,填土的压缩沉降、边坡失稳现象频频出现,因此,保证高填方路基路段的长期稳定对我国公路建设者具有至关重要的意义。本课题针对河北省山区高速公路的荷载特点及自然环境条件,结合河北省承赤高速公路的建设,提出适合的路基沉降与边坡稳定性能的观测方法,通过实测数据深入研究高填方路
动力电池作为电动汽车的核心能源,其技术水平直接制约着电动汽车的发展,作为电池管理系统的核心功能之一—准确的动力电池荷电状态(SOC)估计有助于提升动力电池的有效利用率、保障动力电池使用安全、延长电池使用寿命等。然而,动力电池的时变非线性、环境敏感性以及使用过程中的不可逆衰变严重制约着SOC等隐形状态量的准确估计。本文以锂离子动力电池SOC与容量的联合估计为主要研究内容,开展如下研究:(1)针对锂离
SiC_p/Al复合材料因具有高比强度、高比钢度、高热导性等优良性质得到了广泛的应用。然而SiC_p/Al复合材料的高硬度和高强度,给传统加工方式带来了诸多弊端,电火花加工由于其非接触加工的特点被认为是加工SiC_p/Al复合材料的最有效方法之一。本文针对SiC_p/Al复合材料在电火花加工中蚀除特性不够明确,特有的工艺规律不够掌握等问题进行试验研究,其中主要研究工作如下:(1)研究了SiC_p/
混沌运动是一种看似混乱无章却又颇有规则的运动,由于混沌系统具有对初值极其敏感和类似噪声等特性,因而在通信、医学、经济学等领域拥有巨大的实用价值。由于分数阶系统具有
随着人们生活水平的逐步提高以及旅游业的深入发展,乡村旅游成为城市居民休闲度假的一种重要方式,并在我国兴起一股热潮。乡村旅游的发展改善了旅游景区周边居民的生活水平,
由于受到不对称力场作用而导致表面高分子链构象、自由体积以及堆积密度与本体出现显著偏离,表现出比本体更复杂的分子动力学。由于纳米材料中表面所占体积分数显著,表面分子运动也被认为是影响超薄膜和纳米结构材料流变、黏弹性、玻璃化转变和结晶等物理性质的重要因素。然而,由于表面只存在于聚合物/空气界面之间很薄的区域内,导致表面分子运动行为和相关物理性质难以表征。亟需新的表征手段研究聚合物表面分子运动行为,探究