社交网络短文本的分类方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:w34gss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络中的丰富信息,使之成为数据挖掘技术的研究热点。通过数据挖掘技术可以对灾害事件、民众舆情、可疑用户账号等进行监控,从而提升相关机构的灾害防御和救援能力,实现更智能的政治决策等。但社交网络数据的低信噪比等特点,并且现有的数据挖掘技术中较少考虑噪声的影响,价值信息被垃圾信息所掩盖,影响数据挖掘的效果。通过对社交网络短文本数据进行分类,过滤垃圾数据,保留价值数据,可以为数据挖掘提供更干净的输入数据,从而提升数据挖掘的效果。社交网络数据具有长度短、内容少、特征选择单一且特征表达能力弱等特点,因此传统的文本分类方法在社交文本分类应用中效果不好。并且现有文本分类方法多采用有监督学习的方法来实现,但有监督方法为构建良好的分类模型,对标注数据集的大小和质量有很高的依赖性,但实际工作中往往存在标注数据不足、标注困难、标注代价高昂等问题,这导致现有方法很难获得社交网络短文本的准确分类结果。本文针对上述二个问题开展研究,主要贡献概括如下:1.提出基于多属性特征的社交网络短文本分类方法。在特征抽取阶段,在传统的文本语义特征基础上,通过分析数据的特点,抽取了社交属性和结构属性作为语义属性的重要补充特征,解决了传统方法中特征表达能力弱等问题,很好的利用了社交网络所提供的信息。在特征学习阶段,利用不同的回归模型对多属性特征进行学习,提高了各模型的学习能力,以及特征表达能力,并在多模型融合中采用了加权平均的回归融合软处理操作,减少了噪声的引入,增强了模型的鲁棒性,从而实现数据的有效分类。在真实数据的测试中,本方法与常用方法相比,特征表达能力强,回归融合策略有效,分类性能有显著的提升,满足应用需要。2.提出基于主动学习的社交网络短文本分类方法。在多属性特征分类方法的基础上,加入主动学习框架,通过查询函数批处理选择数据交由专家标注的过程,大大的提高了算法的训练效率,引入外部专家的知识,减少了噪声的引入和错误的传播,利用迭代次数作为终止条件,简化了参数的设定,最终减少算法对训练数据的需求,降低分类成本,实现算法的高效训练。在真实数据的测试中,本方法与多属性特征的分类方法相比,在保证分类性能情况下,对训练数据的需求减少了20倍,从而解决了标注数据不足等问题。
其他文献
目的 总结经阴道子宫骶骨韧带高位悬吊术联合网片修复术治疗重度阴道前后壁膨出的临床经验。方法 回顾性分析我院2015年1月~2018年1月我院收治的95例重度阴道前后壁膨出患者
目的评估三维适形并后程加速超分割联合PF方案同期放化疗治疗中晚期食管癌的临床疗效。方法病理证实的中晚期食管癌65例随机分为单放组33例和放化组32例;放疗均采用6/15MV—X线
目的探讨急诊颈椎损伤漏诊原因及如何避免。方法回顾性分析36例颈椎损伤漏诊的临床资料。结果本组36例,低位颈椎骨折并(或)脱位24例,寰椎骨折6例,寰枢椎脱位3例,枢椎骨折3例。结论
目的分析结节性硬化症(tuberous sclerosis,TS)的临床特点,并复习有关文献,提高对本病的认识和诊治水平。方法对7例结节性硬化症患儿的临床表现、辅助检查及治疗进行回顾性分析
米非司酮配伍前列腺素类药物终止早孕的临床观察齐瑞梅,田庆珍米非司酮终止妊娠因其方法简便,无痛苦,无创伤而易被人们接受,是目前终止早孕的主要方法之一。为进一步发展节育新技
本刊讯 昆腾公司近期公布了截至2013年12月31日的2014财年第三财季的初步业绩。公司预计本财季的收入在1.45亿至1.46亿美元之间,高于2013年10月23日发布的业绩中预测的最高值。
绿色低碳生活已成为人们日益关注的热点问题,不少企业对此也都纷纷响应。目前,不少公司常会面临这样的问题:一些部门搬到别的办公楼,以前拿着纸质文件来回签字的方法就行不通
2012年,启明星辰率先推出国内首款万兆WAF(Web应用防火墙),在金融、电信、政府等高端用户领域,取得了不错的市场开拓成果。
目的确定动脉血压变异性(BPV)、心率变异性(HRV)与计算机模拟瑞芬太尼浓度的相关性,评价BPV和HRV判断镇痛程度准确性。方法选择ASA分级Ⅰ~Ⅱ择期手术患者12例,诱导时给予依托咪酯
随着虚拟化和云计算等技术在数据中心的广泛应用,目前国内外很多企业和IT厂商都在探索双活数据中心和新一代基于云计算的分布式虚拟化数据中心架构及相关技术,以应对传统数据