面向短文本流的主题演化分析研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:pcfanzb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,微博、电子商务、论坛、微信等网络平台已经得到了广泛的应用,这些网络平台所产生的短文本信息都以数据流的形式动态产生和实时更新。快速演化的短文本数据流使得我们迫切需要一种行之有效的分析工具来实时监测短文本数据流中产生的主题及其演化过程,这对舆情疏导、社会网络分析、热点事件挖掘、新兴话题追踪等意义重大。面向短文本数据流的主题演化分析是抽取短文本数据流主题及其演化过程的重要手段。这种方法可以实时分析社交媒体上的热点事件,从而协助监测部门及时做出响应措施。但是,由于短文本流的文本长度较短、用语不规范等特点,使得传统主题演化分析方法面临以下四个问题:(1)难以对高冗余、高噪音的海量短文本流进行有效管理,存储和挖掘时空开销较大;(2)现有短文本主题建模聚合方法通常需要外部辅助信息,泛化能力较差;(3)由于短文本的长度有限,上下文特征非常稀疏,使得面向短文本的主题抽取效果不佳。(4)现有的主题演化分析方法主要针对新闻、网页这样的长文本,仅采用文本特征度量主题间的关联性。而短文本长度短,且文本特征不足,仅依靠文本特征很难准确度量主题间的关联关系。针对上述问题,本文构建了一个面向短文本数据流的主题演化分析统一框架,该框架试图分别从短文本数据流压缩采样、短文本聚类、主题抽取、主题演化分析等方面提出相应解决方案。本文的研究内容可概括为以下四点:(1)针对短文本数据流海量低质的问题,本文提出一个基于压缩感知的短文本数据流压缩采样框架。该框架首先通过基于香农熵的贪心算法实现高质量短文本采样,然后利用压缩感知理论框架对短文本数据流压缩,最后利用冗余字典实现短文本数据流的还原。同时,本文提出了一个基于MapReduce的并行化算法以提高短文本数据流压缩采样效率。在大规模短文本数据集上的实验结果表明本文所提出的方法在运行时间、压缩比等评估指标上要优于基线方法,并能直接用于短文本分析任务。(2)针对现有短文本主题建模聚合方法泛化能力较差的问题,本文提出一种基于词向量的短文本聚类方法。该方法首先提出一种新的短文本相似性度量方法,该方法能够将短文本距离分解成词之间的稀疏距离,从而获得语义相关的词对。然后本文基于K‐medoids算法提出K‐same聚类算法,在文本聚类的同时实现聚类中每类短文本数量相同,从而进一步缓解稀疏性问题,为高质量主题抽取奠定基础。实验结果表明本文所提出的方法是一种解决短文本主题抽取稀疏性问题的通用方法。(3)针对短文本信息稀疏,传统主题模型在短文本上效果不佳的问题,本文提出一种新的主题模型,该模型首先利用全局语义关联提高语义相关词分配至同一主题的概率,然后利用局部语义关联去除噪声词,从而有效提高主题模型在短文本上的主题一致性。在两个真实短文本数据集上的实验结果表明,本文所提出的模型在主题一致性和文本分类准确率等评估指标上要优于其他模型。(4)针对现有主题演化分析方法缺乏主题间的关联分析、可解释差等问题,本文提出一种新的主题演化模型OCCTM,该模型首先将短文本划入到其对应的时间窗,然后同时挖掘出每个时间窗中的高质量主题及主题间的关联关系。最后,通过KL散度衡量不同时间窗主题之间的演化关系,从而自动生成主题演化图谱。在真实短文本数据集上的实验结果表明OCCTM生成主题的质量要优于目前最优模型,以及OCCTM模型生成的主题演化图谱可以帮助公众快速了解热点事件的演化过程和核心主题与子主题间的关联关系。
其他文献
根据钻井液降滤失剂作用机理与氧化石墨烯特点分析,通过分子结构设计研制出了一种钻井液用氧化石墨烯/聚合物钻井液成膜降滤失剂GOJ-1,其合成条件为:合成单体配比AM:AMPS:DMD
为弄清火龙果茎腐病的病原和分类地位,并进一步为该病害的有效防治提供理论依据。本研究从琼海、临高、陵水等地广泛采集病样。经田间症状调查、组织纯化培养、病原形态观察
文章针对大豆油高得率浸出工艺展开探讨,通过单因素试验研究分析了大豆料坯水分含量、料坯厚度、浸出温度、浸提时间以及料液比对饼粕残油率、浸出大豆油色泽以及磷脂含量的
广义线性回归模型不局限于误差项的不相关和同方差假设,是学习和研究其他统计模型的基础,因其简洁性在各领域仍然有着十分广泛的应用。广义线性回归模型的预测是统计决策的重
目的对蔓茎堇菜进行生药学研究。方法采用基原鉴定、性状鉴定、显微鉴定及理化鉴定的方法,对蔓茎堇菜的根、叶及化学成分进行初步分析。结果蔓茎堇菜叶上表皮气孔轴式为不等
本研究探讨了巴基斯坦共同基金的绩效分析、绩效持续性、市场时机与选择性技巧。研究以2011-2016年期间巴基斯坦共同基金为综合样本,采用先进的绩效模型,如资本资产定价模型(
主客体范畴是思想政治教育基础理论研究中的核心范畴,属于思想政治教育学的元问题。思想政治教育作为人类社会的实践形式,其主客体问题的研究自然也离不开对人类社会实践的理
随着社会经济的快速发展,我国企业建设规模不断扩大。在知识经济时代,人力资源逐渐发展成为企业发展中的无形资产,企业越来越重视人力资源管理工作。现阶段,我国医疗水平在不
在普京担任总统的八年里,中俄两国在2001年共同签署的《中俄睦邻友好合作条约》和其他双边及多边法律文件精神的指引下,在政治互信、经贸合作、军事交流等方面都取得了较大进
在我国,劳动力的跨区域流动是一个普遍且突出的现象,这是由于巨大的区域发展不均衡造成的。虽然2014年后,我国人户分离现象的增长有所减缓,但流动人口的规模依然十分庞大。而在此期间,劳动力的流动也发生了一定变化。早期劳动力流动主要集中于低技术水平的劳动者,随着经济发展和产业结构变迁,寻求新动能的愿望促使了地区劳动力需求从早期的数量型向质量型转变。这种转变的一个重要体现就是地方财政支出结构的变化。然而,