面向社会化媒体内容的若干聚类算法研究

被引量 : 0次 | 上传用户:dahinter11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以Web2.0为代表的社会化媒体服务迅猛发展,改变了传统的信息传播方式,使得互联网用户从以往被动地接受信息走向主动对信息进行创造,产生了无穷无尽的文本数据。与此同时,社会化媒体服务还将现实社会关系映射到了互联网中。面对社会化媒体中海量、有价值的数据,科学家们掀起了研究的狂潮。然而,与以往的数据相比,社会化媒体中的文本,链接数据拥有一些新的特性(多噪声、高稀疏、短文本、动态性、缺失值),这导致了传统的聚类方法不能直接的应用于社会化媒体中的数据。近几年科学家们提出一些针对社会化媒体数据新特性算法,如图聚类模型,主题模型等。但这些聚类研究存在如缺少对数据整体分布的学习、缺乏数据之间关系的分析及缺乏系统性等缺点,并且研究方法寥寥可数。本文在现有研究工作的基础上,针对社会化媒体数据新特性,结合图聚类及主题模型最新研究成果,提出一系列新颖的、针对社会化媒体内容的聚类方法。主要研究工作和创新包括:(1)针对多噪声网页内容聚类问题,提出基于网页DOM树结构的网页分块算法(TPS)和基于图分割的网页分块算法(GPPS)。这两个算法探索社会化媒体网页中语义模块与网页DOM树子树结构的对应关系,将一个网页视为多个主题信息块的集合,并通过解析网页DOM树子树结构中包含的语义信息,将一个网页分割成为多个独立主题的语义模块。TPS算法通过定义DOM树中的语义子树将一个网页分割成为不同语义模块。GPPS算法将DOM树转化为一个有向图,并通过图聚类算法来发现网页的语义子模块。在社会化媒体网站数据上的实验结果表明,与仅搜索网页DOM树节点属性和视觉信息的传统算法相比,TPS和GPPS两个算法的分块效果精度更高,鲁棒性更强。这两种算法可以用来去除网页中的噪声文本,是其他工作的前置步骤。(2)针对文本流数据中的突发词聚类问题,提出基于主题的突发事件侦测算法(TBE)。该算法首先使用高斯分布检测时间域上的突发词。接着,该算法同时考虑突发词之间的共现关系和文本集中的潜在主题信息对突发词进行聚类,得到了时间间隔中的突发事件。最后,TBE算法通过概率可能性估计出事件主题。该主题用来在时间域内追踪突发事件的发展。本文中TBE算法还设计事件可视化技术来展示算法发现的事件。在社会化媒体中博客数据和Reuter新闻数据上的实验结果表明,TBE算法事件发现的效果优于当前最好事件发现算法HBE算法。(3)面对传统的TDT问题,将传统的在线主题模型扩展为主题事件侦测和追踪算法(TEDT),该算法克服在线主题模型在事件侦测应用中的两个缺陷(噪声词和多重事件)。TEDT算法通过计算事件出现的概率来度量词之间的距离,使用了流聚类算法得到了一个主题对应的最高概率事件。TEDT算法还能够通过侦测到事件的主题,在时间域内追踪事件的变化。最后,TEDT算法提出事件可视化方案来展示算法发现的主题事件。在博客数据和Reuter新闻数据上的实验结果表明TEDT算法事件发现的效果优于传统主题模型算法。(4)面对文本和链接数据的协同聚类问题,提出作者、主题、社区模型(ATCModel)。ATC模型使用概率生成模型对社会化媒体中的用户数据(文档和链接)的出现进行建模。该模型通过对用户发表文章和用户之间链接关系的协同聚类,使用用户主题的知识弥补用户链接数据中的缺失信息,得到对用户兴趣和社区分布的更精确更鲁棒的分析。在模型的推导阶段,本文使用变分法来估计ATC模型的参数。人工数据、博客数据、DBLP数据和DIGG数据上的结果表明ATC模型效果优于传统用户主题模型。本研究提出的五个算法中,TPS算法和GPPS算法被用作过滤网页中主题无关噪声,是其他工作的前置步骤。TBE算法考同时考虑突发词之间的共现关系和文本集的潜在主题信息对突发词进行聚类。TEDT算法过滤在线主题模型中的噪声词和多重事件,得到了一个主题的最相关事件。ATC模型使用用户主题的相关弥补用户链接数据的中的缺失信息,得到用户兴趣和用户社区的分布。总体而言,本文针对社会化媒体中信息新特性,解决具有多噪声、高稀疏、短文本、动态性、缺失值特点的数据聚类问题。提出了TPS,GPPS,TBE,TEDT及ATC等5个聚类算法/模型。本文研究将推动社会化媒体中数据聚类的进一步发展,同时这些算法也给金融分析业,电商平台的推荐系统带来更多更好的选择。
其他文献
亚松迪地区巴楚组下泥岩段泥岩裂缝型储层发育,裂缝主要以高角度裂缝和斜交缝等构造裂缝为主,其次为层理缝.裂缝对储层的渗透率贡献明显。研究认为,裂缝的形成主要与构造应力、构
在开放学习背景下,学习者的学习活动逐步具有“流”的特征,学习活动不再局限于单一的学习平台,学习分析也开始关注平台的整合性和集成性,数据的多源性和开放性。学习分析已有的模型和框架使得学习分析逐步从理论研究走向实践探索,并开始向规范化、模块化方向发展,但其在整合多源数据方面以及对学习活动“流”描述方面仍有所欠缺。因此本研究尝试构建多源学习活动流的数据模型和数据分析规则,指导多源学习情境下的数据收集和数
从沃尔夫假说和心理语假说的批评以及认知语言学分析的角度讨论语言与思想的辨证联系。沃尔夫假说揭示了表层语言形态对表层思想形态的强化性反作用如何促使思想形态的常规化
近年来,呼吁对WTO争端解决机制进行改革的声音越来越多,不仅仅是WTO成员,还包括非WTO成员的国际组织(尤其是非政府组织)、团体等。随着经济全球化和贸易自由化的不断推进,WTO贸易涉
<正>该书是英国知名政治学教材作者安德鲁·海伍德的代表作,也是畅销全球多个国家的经典教材。全书分政治理论、政治互动、政府设置三篇,系统地阐述了政治学的理论及发发展脉
20世纪90年代以来我国箱包行业取得了飞速发展,无论是生产总量还是出口总量,我国都是位居世界第一,其中年产量占据世界的1/3,与此同时消费者消费箱包的品牌化趋势也愈发明显。但
传统监督机器学习面对的是监督信息明确且完整的对象,需要大量标记数据来保证学习机的泛化性能。随着研究不断深入以及应用不断推广,越来越多机器学习问题面对的是缺乏明确和完
各种调查和统计数据显示,近年来我国大型商业银行的传统业务在服务农村方面遇到了较大的困难,许多文献对此现象进行了深入的理论分析和探讨;该类研究可以发现并深入分析目前
随着互联网技术的高速发展,互联网已经渗透到人们生活的各个方面,也极大地改变着人们的生活方式,生活方式更改的同时也催生了商业模式的变化,互联网+已经逐渐渗透到各个行业,
目的探讨机械性抽栓治疗导管接触溶栓(CDT)失败后滤器源性症状性下腔静脉-髂静脉血栓形成的可行性。方法收集2011年7月至2018年4月采用机械性抽栓治疗的8例CDT失败后滤器源性