在线新闻文本的读者情绪预测方法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:qq793053
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展与Web 2.0时代的到来,在线新闻作为主要的网络信息载体,已经成为人们获取新闻资讯的主要渠道。其内容与形式也不断创新,允许用户通过情绪投票直接抒发自己对新闻事件的情绪。了解用户对新闻事件的态度和情绪变化,可以辅助在线新闻服务商理解用户偏好,同时有助于实现网络舆情分析和监控。因此,如何准确地对用户的情绪进行预测,具有重要的理论意义和应用价值。本文分析并总结了读者情绪预测在国内外的研究现状,结合目前机器学习领域高度关注的LDA主题模型及多标签分类技术,对新闻文本引发的读者情绪自动判别和预测进行了深入研究,主要工作包括:第一,首次提出将读者情绪预测作为多标签分类问题。由于现有读者情绪预测方法大多将读者情绪预测作为单标签分类任务,这与人类直觉及对读者情绪进行大规模统计结果不符。本文在对读者情绪投票数据进行详细统计分析的基础上,验证了使用多标签分类方法解决读者情绪预测问题的正确性。第二,提出一种读者情绪自动标注方法。本文设计了一种读者情绪多标签标注算法,该算法创新性地利用读者情绪投票数据,采用基于阈值的方法,实现了读者情绪的自动标注。避免了传统手工标注方法工作量大、标注结果不准确等问题。第三,提出一种多标签监督的情绪-主题模型。在深入分析LDA主题模型的基础上,增加一层隐含的读者情绪,并利用读者情绪反馈信息对模型进行监督。与传统模型相比,该模型能够更加有效地利用文本语义信息,取得了更加准确的情绪预测结果。本文在真实的新浪社会新闻数据集上进行了大量的对比实验,结合多标签分类常用评测指标,对实验结果进行评测。实验结果表明较已有的读者情绪预测方法,本文提出的多标签监督的情绪-主题模型能够更准确地预测读者情绪。
其他文献
有向标签图作为重要的数据表示模型,广泛应用于社交网络、生物信息学、语义 web等信息技术相关的研究领域。目前,随着上述领域数据规模的快速增长,如何高效管理较大规模的有向标
近年来,以互联网为传播介质,以数字化多媒体内容为主体的数字媒体产业在全球范围内快速崛起,并逐渐改变了人们娱乐休闲的方式。本文以数字音像内容集成分发平台为依托,构建一
XML(eXtensible Markup Language)已经成为Web上数据表达和数据交换的新标准。XML文档的大量出现,产生了XML数据管理的需求。XML所描述的Web数据所具有的半结构化特性对传统
当前,科技信息领域的现状是:各省级科技情报单位收集了大量区域内的科技信息资源并建立了各自的信息系统。随着我国“科教兴国”战略的推进,对科技资源的信息化建设也提出了
身份认证是计算机和互联网世界里最基本的要素之一,也是整个信息安全体系的基础。生物识别技术应用于身份认证是未来发展的趋势,相对于基于口令和智能卡的技术来说,生物识别
医院信息系统的迅速普及,为医疗行业积累了海量有价值数据。对这些数据的有效利用、分析,挖掘其中隐含的信息、知识及模式,可为疾病患者提供更好的诊疗及保健,为管理者提供更好的
我国社会经济的高速发展离不开日益发达的道路交通运输,发达、快速的道路交通运输已经成为经济发展的必备条件。同时,随着人们的购买能力的增强,私家车的数量大幅上升,密集的道路
随着多媒体技术和网络技术的不断发展,多媒体信息的数量迅猛增长,为了充分利用已有的多媒体资源,研究多媒体检索技术变得越来越重要。音乐检索技术研究的是如何从大量音频信
AVS是我国自主创新战略的一个典型。从2002年开始,以AVS标准工作组的方式,组织了国内外两百多家单位、一千多人的队伍开展联合创新,制定了配套的数字音视频信源编码标准,成为
随着互联网的飞速发展,人们利用互联网共享各种信息,使得网络信息资源日趋丰富,搜索引擎正是为了解决这一问题而发展起来的,而现在的搜索引擎存在明显的缺陷:一是搜索引擎结