论文部分内容阅读
随着Web2.0的发展及个人电子设备的普及,网络上的信息量非常的巨大,并且时时刻刻都在以惊人的速度增加着。互联网的每个用户是信息的消费者的同时也有可能成为信息的产生者。无论是较为严谨的新闻报道,还是较为随意的微博博客,其产生过程均有人为参与。热门微博可能讨论的某则新闻,而某则新闻也有可能源自于某条热门微博,但是尽管表述意思相同,但是采用的文本却有可能干差万别。这也就意味着网络上的信息在传播过程中会发生变化和变异,同时存在着大量的冗余。信息量大而冗杂,及整个互联网信息结构独立而分散,造成了人们难以有效且高效的去获取信息。 如何去分析信息在网络传播过程当中如何变化和变异的?如何保证算法的高效性,以适应大规模数据处理的要求?如何结构的组织与呈现冗杂的数据,方便用户的智慧阅读?解决这些问题便是本文研究的意义与挑战所在。将基于语义信息流[a]探测与追踪的研究,从语义的角度,而非传统字符串形似的角度出发,采用词向量及局部特征聚合描述符(vector of locally aggregated descriptors,VLAD)的融合框架去追踪语义信息流,将相似的信息聚类成一个Meme[b]。通过对Meme分析,追踪完整的语义信息流。并把一个Meme视作一个事件[c],进一步对Meme间的关联关系进行探究,建立共现图,并通过密集子图挖掘的方法来对事件进行进一步的聚合,进行情境感知的故事[d]探测挖掘,使得在知道发生了什么的同时,了解是如何发生的。 本文研究的创新点可以总结如下: (1)借助词向量和局部特征描述符结合的语义相似度度量方法,及我们提出的独创的降维算法和聚类算法,有效且高效的从语义的角度进行信息流的探测。 (2)我们创新性的提出了从语义信息流的角度去进行故事探测,提出了从文本语义相似度,文档共现相似度,时序变化相似度三个方面去综合度量Meme之间的关联性。并定义了一种全新的密集子图结构(λ-d)-clique,并提出了对应的两种挖掘算法,并通过实验验证了定义与挖掘算法的性能。 本文是基础研究和应用相结合,在语义信息流探测研究的基础上,进行情境感知的故事探测的应用研究。实验数据均是从中文新闻网站上抓取下来的文本数据,在实验设计方面,每一个全新的定义和算法,均通过对比的方法,采用准确率,召回率,F1值等指标来验证其性能。