基于微博的主题社区发现

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:wanfan001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博,作为一种新兴的互联网交流与分享平台,已经获得巨大数量用户的亲睐,Twitter、FaceBook、Sina、Tencent等微博网站已成为海量信息的发布体。微博平台中蕴含着大量有价值的信息有待挖掘。在数据挖掘领域,尽管传统的基于文本、基于内容的挖掘分析方法已经得到了广泛的研究并取得了很大的成功。但对于微博文本的特殊性,每条文本信息短小、口语化且带有一些结构化社会网络方面的信息,传统的文本挖掘算法不能很好的对它进行建模。而由于海量用户及信息的存在,使微博的数据挖掘不能仅仅依靠用户关系的分析。为了满足微博营销寻找投放目标的需求,本文综合考虑了面向微博文本内容及微博用户社会化链接关系,提出了一种微博主题社区的发现方法。文中创造性的结合了领袖发现、文本分类以及最大流社区发现的基于内容、链接关系的分析技术,同时采用多种剪枝策略,设计出了一个比较高效准确的微博主题爬虫。实验经过真实数据的采集,并且从不同的维度对结果数据进行了实验分析。
其他文献
图像分割是图像处理中的重要研究课题,随着图像处理技术在生产和生活中的广泛应用,图像分割也受到人们越来越多的重视。它作为图像处理中的关键环节,决定着最终的处理质量。由于
Max-SAT问题是一个著名的约束满足问题,在理论研究和实际应用中都有重要的意义。局部搜索框架是一个非常有效的解决带权重的Max-SAT问题的框架,本文提出了一种新的启发式的变量
随着多线程库的日益普及和多核处理器的快速发展,多线程软件技术被越来越多的开发者所使用。而在多线程软件中,并发错误是最难以处理的错误之一,不仅因为线程的调度受到操作系统
互联网时代的来临带来了数据的爆炸式增长,也使得传统的数据存储方式遭遇了新的挑战:虽然网络带宽和磁盘容量快速增加,但成几何级增长的用户数和应用需求,使得传统的数据分布式
随着经济的不断推进和信息技术的不断发展,以提供信息服务为目的数据密集型计算机应用系统越来越普遍。而信息系统的主要任务就是最大限度的利用现代计算机技术及网络通讯技术
随着信息技术的进步和互联网的不断普及,网络中涌现出大量的开源文本。海量开源文本的出现给信息抽取技术的发展带来了巨大的机遇和挑战。同时,在社会计算兴起的大背景下,针对安
点型紫外火焰探测器性能检验装置在国家消防电子产品质量监督检验中心执行国家标准GB12791-91《点型紫外火焰探测器性能要示及试验方法》过程中发挥着重要作用.它主要对点型
目前众多小微APP存在“信息孤岛”问题——很多APP内的数据在Web上无法访问到,特别是现有的搜索引擎无法快速定位到这些信息。应用内搜索技术,就是专门解决“信息孤岛”的技术,
GEO卫星移动通信系统具有网络控制简单,良好的性能和通信容量保障等特点,成为区域性通信的首选。在GEO卫星移动通信系统中,信道分配是无线资源管理模块的核心,对提高用户的通信质
随着Web2.0的兴起,基于web的在线考试系统正大量涌现。然而开发成本高、维护困难、多媒体支持性差等问题制约了在线考试系统的发展。而云计算服务具备的资源按需分配、用户无