基于主题模型的微博话题发现与话题摘要

来源 :浙江大学 | 被引量 : 0次 | 上传用户:ycboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,网络上的信息资讯呈现爆发式增长。其中,微博以其交互性、实时性、原创性等特点迅速成为信息资讯传播的重要平台。在社会热点事件发生和传播的过程中,微博等线上平台也迅速产生了大量热点话题。为了帮助用户从海量微博信息中快速了解话题的来龙去脉,进行便捷高效的话题信息获取,本文对微博话题发现技术和微博话题技术进行了深入的分析和研究,提出了一种基于自适应在线主题建模的微博话题发现算法和一种基于图排序的微博话题算法,用以发现微博话题及其演化并生成话题。  本文提出的自适应在线主题建模算法采用在线潜在狄利克雷分配主题建模发现微博话题,并根据微博特征做了扩展:首先利用微博的半结构化信息,合并具有相似主题的微博,缓解了短文本数据稀疏问题;然后基于话题热度冷却模型,自适应地设置当前时间窗口主题建模的先验参数。通过上述算法实现了不同时间窗口的主题对齐,帮助发现话题及其演化。  本文提出的基于图排序的微博话题算法,在基于图排序的多文档算法基础上,根据微博特征做了扩展:根据微博关系特征扩展了建图过程以生成微博概括度;根据微博话题特点提出融合微博概括度、主题相关度、热门度的微博评分模型;通过上述算法得到微博评分帮助生成话题。  最后,本文设计了详细的实验。实验结果表明,本文提出的微博话题发现算法和话题算法在新浪微博数据集上取得了较好的效果,微博话题发现算法能够有效发现微博话题及其演化趋势,微博话题算法能够提供简洁明了的话题。
其他文献
热点话题是在具体时间段内发生的,能够引起人们广泛关注的不同领域中的话题。微博热点话题是以微博为应用平台的热点话题。微博是以用户关系为基础进行信息分享和传播的平台,具
即时通信对互联网发展至关重要,应用很广泛,极大方便了人们的生活。基于P2P技术的即时通信系统成为研究的热点,传统的即时通信工具大多数协议标准不统一,难以定制和集成到开发者
准确的烧伤程度评估,是治疗烧伤患者过程中十分关键的一步。烧伤区域体表面积,是评价烧伤程度的主要依据。及时、准确的烧伤区域体表面积估测,是为病人提供正确输液量,以及确
传感器节点大多部署在环境较恶劣或者是敌对等地方,且没有身份验证中心,所以很容易被敌人捕获,从而可以看出无线传感器网络的安全问题是十分重要的。大多数已有的密钥管理方案不
无线传感器网络作为资源严重受限的网络系统,路由协议的设计对网络生命期等性能指标影响巨大。同时,由于传感器节点大部分能量消耗在数据传输过程中,如果在数据转发之前首先进行
目前,世界正处在经济全球化与信息技术高速发展的时代,汽车产业也随之爆发式增长,汽车正越来越成为大众消费品。与此同时,越来越多的交通阻塞、交通违规、交通事故等问题使得交通
信息技术的飞速发展使信息资源的过度膨胀和用户查询的多样化需求逐渐成为一种不可缓解的矛盾,各种信息检索技术应运而生。存在着更大研究价值和广泛应用前景的文本检索技术
如何在海量文本环境下提供有效的信息服务,已经成为国内外学术界与工业界关注和研究的重点问题。为了帮助人们从语义层面上快速理解文本内容,各种主题模型被相继提出。同时,文本
蝙蝠(Bat Algorithm, BA)搜索算法受蝙蝠回声定位行为的启发,由剑桥大学YANG Xin-she教授于2010年提出的一种新型搜索优化算法,蝙蝠算法目前应用于分类类别、模式识别、分布
本文的研究内容来源于国家自然科学基金面上项目“基于异构服务网络分析的Web服务推荐研究”。当前,随着信息技术与电子商务的发展,推荐系统逐渐成为电子商务技术的研究热点,其