论文部分内容阅读
当今社会,随着计算机的普及和网络相关技术的发展,越来越多的多媒体平台随之出现,广大的网民可以方便地借助于网络在这些平台上发表自己的生活经验、趣事和发生在自己周围的社会事件。当客观世界中某一热点社会事件发生后,该事件就可以通过网络渠道在各种媒体平台中快速传播和扩散,同时产生大量相关的文本数据。这些文本数据都与某一社会事件的主题相关,而这些社会事件文本中蕴藏的信息对于社会经济发展、政府管理等方面都有着不言而喻的作用,想要获得这些重要信息就必须先对不同平台中的异构化文本数据进行整理和分析,其中对于文本数据的分类便是一个重要的环节,如果采用人工处理的方式去对这些事件文本进行分类,那将是非常耗时耗力的。除此之外,现有的多媒体平台众多,各平台的数据组织形式和数据结构有很大的区别,所以针对这些平台设计一个通用的分类处理模型就非常具有挑战性。但同时,一个有效的跨平台知识迁移的分类框架是非常重要的,它不仅能够减少人工文本分类的工作量,也能减少传统文本分类模型在处理不同域分类任务时需要重新训练模型的成本。本文的主要工作是针对不同平台的文本数据设计一个有效的跨域社会事件文本分类模型,为了构建不同域间共同的文本深度特征空间,我们使用无监督的文本主题模型来构建域间共享的主题特征空间,利用主题特征空间中的文本相似度信息辅助文本深度特征空间的构建,从而实现不同特征空间的知识迁移,使得在一个域上训练得到的分类模型能够较好的应用在另一个域中。本文可以分为三个子任务,针对每个子任务设计和实现了具体方法,相对应的文章贡献点有以下3个方面:(1)社会事件文本数据的获取和处理:由于模型应用场景的特殊性,目前相关课题的研究数据非常稀少,为了获取较为合适的模型训练数据,文章使用爬虫技术在网易和搜狗两个新闻事件平台上分别抓取了社会事件文本数据,并且对获取到的文本数据做了去除网页标签等预处理工作,以方便主题模型和跨域文本分类模型的特征提取和计算;(2)社会事件文本主题模型的实现:文本主题模型的功能是从大量文本数据中提取文本主题特征来构建主题特征空间,然后再利用各文本在主题特征空间中的相似度信息约束文本分类模型学习到的深度特征表示,使得文本分类模型学习到的文本深度特征能够反映文本在主题特征空间中的相似度信息,最终实现文本主题特征的知识迁移;(3)跨域社会事件文本分类模型的实现:跨域社会事件文本分类模型的目的是实现不同域中事件文本的特征学习和文本深度特征到文本类别的映射,该模型的学习过程是在传统的文本分类模型的基础上加入文本主题模型,利用主题模型学习到的主题特征约束传统模型的特征学习,实现主题特征的知识迁移,从而一定程度上提升跨域事件文本分类模型的效果。