基于无指导学习的微博评论分析方法

来源 :南京大学 | 被引量 : 0次 | 上传用户:z1348891
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着微博逐渐成为人们获取、发布信息的重要媒介,网络中每天都会产生海量的微博及其评论数据。如何以一种有效的方法,剔除垃圾评论,寻找出有价值评论,并将其展现给读者,或者提供给进一步的舆情分析、文本挖掘任务,具有重要的应用价值。本文针对中文微博中有价值评论的识别问题,进行了深入研究,本文提出的办法,能够在没有人工参与的情况下,通过比较评论与微博相关性,自动标注出高质量的训练用例。主要工作包括:1)中文微博评论数据抓取及分析我们爬取了新浪微博认证用户在一定时间段内的微博及其评论数据。对这些数据的基本情况进行了统计与分析;还选取了一定数目的评论,以人工阅读并对它们的价值性进行了标注,分析了微博评论价值的分布情况。2)基于无指导学习的微博评论分析方法针对微博及其评论文本短小、内容发散等特点,本文提出一种无指导学习的评论分析方法,该方法能自动寻找高质量的训练用例,并且针对具体微博,生成专属于该微博的评论分类模型,通过该模型对评论的价值性进行评估。实验结果表明,该方法能够比较好地识别出评论的价值。3)微博评论过滤系统(MCFS,Microblog Comment Filter System)的设计和实现利用本文提出的方法,我们设计并实现了微博评论过滤的原型系统。该系统从新浪微博上爬取微博及其评论数据,筛选出高价值的评论,并将其以网页的形式展现在读者面前。
其他文献
该文的第一章介绍了框架技术以及相关概念;第二章概述了对商业领域进行领域分析的过程;第三章给出了基于DSSA的商业领域软件框架的总体设计、遇到的问题以及解决方案;第四章
近年来,伴随着无线网络及智能终端技术的迅猛发展,移动互联网提供的服务越来越全面、体验越来越周到,并逐渐成为新型应用的主流平台。其中移动流媒体业务以简单、直观的特点
银行的业务办理网络化,是银行业务的发展趋势.郑州农业银行业务数据交换系统,是按照中国农业银行总行全国借记卡联网工程统一安排的,主要解决农业银行发行的世纪通宝借记卡在
作者在报告中就宽带网络技术的几个问题进行了分析和研究.报告分为3个部分.在前言部分,作者分析了当前宽带技术的几个热点现象.其中包括宽带泡沫、NGN和3G.作者从自己的角度
聚类分析作为数据挖掘的重要分析方法,在许多现实应用中起到了很好的作用.它不仅可以作为数据挖掘分析系统的一个独立组成部分,对数据进行分析处理.也可以作为其它数据挖掘分
该文主要从光传送网的结构和管理的角度,总结了前人研究成果,提出有效的设计和管理方法.该文的主要研究内容和创新点包括:研究和探讨了光传送网的传送功能结构,描述了光传送
该论文通过对现有系统及数据交换机制的分析和研究,并结合多个企业应用数据仓库的成功案例,提出了一种基于OMG CWM规范,具有标准的数据和元数据交换接口的数据仓库体系结构.
检测软件系统中潜在的缺陷往往相当困难并且需要花费高昂的代价。为缓解此问题,人们试图使用缺陷预测模型来识别一个软件系统中包含潜在缺陷的模块。近年来,研究者主要利用两
随着INTERNET的发展和宽带城域网及数据网的全面建设,家庭数据网络将是下一个数据化目标。因而导致最后一公里甚或最后一公尺的数据传输的瓶颈由于技术的成熟、市场的需求的驱
该文首先简单介绍了捷联惯性导航系统的原理及其组成.然后重点介绍了捷联惯性导航系统中的惯性测量系统.在分析了惯性测量系统一些误差源的基础上,介绍了一般惯性测量系统的