论文部分内容阅读
社交网络中的丰富信息,使之成为数据挖掘技术的研究热点。通过数据挖掘技术可以对灾害事件、民众舆情、可疑用户账号等进行监控,从而提升相关机构的灾害防御和救援能力,实现更智能的政治决策等。但社交网络数据的低信噪比等特点,并且现有的数据挖掘技术中较少考虑噪声的影响,价值信息被垃圾信息所掩盖,影响数据挖掘的效果。通过对社交网络短文本数据进行分类,过滤垃圾数据,保留价值数据,可以为数据挖掘提供更干净的输入数据,从而提升数据挖掘的效果。社交网络数据具有长度短、内容少、特征选择单一且特征表达能力弱等特点,因此传统的文本分类方法在社交文本分类应用中效果不好。并且现有文本分类方法多采用有监督学习的方法来实现,但有监督方法为构建良好的分类模型,对标注数据集的大小和质量有很高的依赖性,但实际工作中往往存在标注数据不足、标注困难、标注代价高昂等问题,这导致现有方法很难获得社交网络短文本的准确分类结果。本文针对上述二个问题开展研究,主要贡献概括如下:1.提出基于多属性特征的社交网络短文本分类方法。在特征抽取阶段,在传统的文本语义特征基础上,通过分析数据的特点,抽取了社交属性和结构属性作为语义属性的重要补充特征,解决了传统方法中特征表达能力弱等问题,很好的利用了社交网络所提供的信息。在特征学习阶段,利用不同的回归模型对多属性特征进行学习,提高了各模型的学习能力,以及特征表达能力,并在多模型融合中采用了加权平均的回归融合软处理操作,减少了噪声的引入,增强了模型的鲁棒性,从而实现数据的有效分类。在真实数据的测试中,本方法与常用方法相比,特征表达能力强,回归融合策略有效,分类性能有显著的提升,满足应用需要。2.提出基于主动学习的社交网络短文本分类方法。在多属性特征分类方法的基础上,加入主动学习框架,通过查询函数批处理选择数据交由专家标注的过程,大大的提高了算法的训练效率,引入外部专家的知识,减少了噪声的引入和错误的传播,利用迭代次数作为终止条件,简化了参数的设定,最终减少算法对训练数据的需求,降低分类成本,实现算法的高效训练。在真实数据的测试中,本方法与多属性特征的分类方法相比,在保证分类性能情况下,对训练数据的需求减少了20倍,从而解决了标注数据不足等问题。