论文部分内容阅读
互联网社会网络的发展将促进互联网从信息的网络向人的网络进行演化,软件人将成为人参与互联网社会网络活动的虚拟实体,个人数据空间也将映射到软件人的虚拟脑当中。在这种新的网络环境下,对于互联网信息的监测和主题分析则依赖于每个软件人在不同情境下,对于不同主题内容所掌握的不同主题模式,即其个性化和情境化的语言模型。本文以国家自然科学基金项目(突发事件跨媒体数据挖掘研究,编号:91024001),北京市自然科学基金项目(旅游突发事件的数据挖掘与智能预测研究,编号:4082021),北京市自然科学基金项目(“软件人”与Linux的融合研究,编号:4072018)为研究任务,以食品安全事件互联网信息监测及旅游信息服务为应用背景,研究基于软件人的情境主题建模、文本情境主题分析、情境主题模型的自动标注和跨媒体主题分析的理论方法、关键技术和系统实现,取得创新性的研究成果如下:1)提出了在软件人构成的互联网社会网络信息监测环境下,信息监测软件人的情境主题模型。给出了情境主题的形式化定义,并且将情境变量引入混合概率主题模型,建立了情境主题模型来实现软件人的认知。模型通过主题和其它情境的条件分布来分析不同情境下主题内容的变化情况及变化强度,还通过一般性分量将先验知识集成到情境主题模型中。模型的有效性在文本和跨媒体的主题分析中都得到了实验验证。2)在情境主题模型的基础上,引入时空情境,提出一种时空情境主题分析方法,将文本从词语特征空间转换到主题空间,并且将多主题分布与时空情境关联起来,对主题周期和强度进行描述,通过改进时序聚类和EM算法在主题空间上实现情境主题的发现和跟踪,实验表明该方法优于词语空间上的主题发现和跟踪方法。3)提出一种主题标记方法,基于语义分类建立主题关联词集对主题模型进行标注,通过选择具有高语义覆盖度和区分度的主题词,为情境主题模型自动生成可理解的标记,解释各种情境的概率特征,解决概率语言模型对普通用户难以理解的问题。实验表明该方法优于高概率主题词的标注方法,尤其在食品安全主题标注方面已经接近人工标注的准确度。4)提出一种利用视觉主题模型来实现跨媒体信息主题分析的方法,以视觉词的方式来表达图像的语义,并且给出了视觉主题学习方法,建立文本主题与图像语义间的映射关系,将文本主题也以图像视觉语义的方式进行描述,实现跨媒体数据的统一描述和情境主题建模。实验表明该方法改善了短文本主题发现准确度差的问题。5)在上述研究的基础上,实现了食品安全事件监测和旅游信息智能推拉系统,分别应用于食品安全事件互联网信息的监测和旅游信息的个性化服务。论文的研究成果有助于对日益复杂的互联网信息进行主题分析,对特定领域或主题的信息进行监测,判断热点主题,从而进行有效应对或者有针对性地提供个性化信息服务。