【摘 要】
:
以短文本为主体的微博等社交媒体,因具备文本短、特征稀疏等特性,使得传统文本分类方法不能够高精度地对短文本进行分类。针对这一问题,文章提出了基于词项关联的短文本分类方法
【机 构】
:
天津海量信息技术有限公司天津,中山大学信息科学与技术学院广州,中国科学院深圳先进技术研究院深圳
论文部分内容阅读
以短文本为主体的微博等社交媒体,因具备文本短、特征稀疏等特性,使得传统文本分类方法不能够高精度地对短文本进行分类。针对这一问题,文章提出了基于词项关联的短文本分类方法。首先对训练集进行强关联规则挖掘,将强关联规则加入到短文本的特征中,提高短文本特征密度,进而提高短文本分类精度。对比实验表明,该方法一定程度上减缓了短文本特征稀疏特点对分类结果的影响,提高了分类准确率、召回率和F1值。
其他文献
将Kirchhoff-Helmholtz积分方法应用于合成震源发生在地表之下的深度震相的地震图计算中,计算多次反射震相时与反射率方法进行了比较,表明KH积分方法能很好的模拟反射波震相,精度较高,且KH积分方法能够计算复杂界面的反射波,其计算效率明显大于有限差分。
测试了5种胶版纸的基本性能,通过印刷打样,测定出同一油墨在这些纸张内部的渗透深度,分析了胶版纸和印刷工艺对油墨渗透深度的影响状况.
教学质量是高校生存与发展的生命线,是高等学校工作的重中之重.本文从全程、全方位和全员参与三个角度阐述对质量观的内涵理解,总结了我校多年来在保证和提高教学质量方面的
目的探讨微种植体配合Ⅲ类颌间牵引治疗高角骨性Ⅲ类错畸形病例的临床疗效。方法选取高角骨性Ⅲ类错畸形病例20例,分为微种植体支抗组(采用微种植体支抗结合Ⅲ类颌间牵引)和
自由分类法是人们用标签对网络信息进行标引与共享的新兴方法,它目前已经在众多的Web2.0站点(如博客,播客与wiki等)得到了广泛的应用.研究在和讯博客朋友圈的标签数据的基础
近年研究表明,急性脑缺血的病理过程涉及到炎性反应,缺血过程中白细胞在缺血区脑组织聚集、附壁、浸润,不仅造成毛细血管阻塞,而且可释放炎性介质,导致血脑屏障破坏、脑组织
阐述了在电厂运行优化系统中进行数据预处理的必要性,介绍了数据检验和数据协调两种处理方法,详细讨论了基于数字滤波的数据协调算法,通过算例验证了各方法的有效性;提出利用
工程机械液压缸在工程机械设备中占有重要的地位,是工程机械的执行元件,而缸筒是其关键件,其制造质量将直接影响到设备的正常工作和使用寿命。缸筒内孔采用普通珩磨工艺时,油
介绍了多变量PID型神经元网络控制系统的网络结构和学习算法,说明了系统参数选取方法,并分析了单元机组协调控制的特点。仿真结果表明,该控制系统对多变量强耦合时变的协调控
简述了当前高层结构体系HLA的显著特点,介绍了如何利用G2构建实时智能系统.利用HLA架构在分布式系统设计中可扩展、可重用的特点,结合G2的实时性、高的开发效率以及与能够与