基于文本情感计算技术的专题领域挖掘的研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xxyxwxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和通讯技术的发展,互联网上日益出现的海量数据以指数级别的速度不断地增加,其中大部分数据是非结构化的文本数据。如何高效地处理这些非结构化的数据,从中快速地提取出有用的信息,对批量挖掘互联网数据有着不可估量的意义。近几年来,关于文本倾向性分析,也叫做文本情感计算,的研究逐渐成为国内外所关注的一个热点。文本倾向性(也叫做文本褒贬性或者文本情感)描述的是文本所传递的情感。我们希望借助计算机技术自动地分析文本信息所包含的情感因素,例如喜欢或讨厌、止面或负面、快乐或悲伤、愤怒和恐惧等。本文的研究从互联网文本倾向性分析,即文本情感计算出发,设计并实现对每一个文本赋予一个数值的算法,其大小表示文本影响强度,其止负号代表文本的感情取向。随后,该算法将被用于实现体育和金融两个专题领域的两项挖掘课题研究,分别是基于文本倾向性分析的体育论坛聚类分析和基于文本倾向性分析的金融市场波动预测。 在基于文本倾向性计算的互联网体育论坛聚类分析研究中,本文设计并实现了针对中文文本的感情计算算法,结合K-means聚类算法和SVM预测算法,对互联网体育论坛的结构按照用户关注程度进行聚类分析。我们通过无监督的聚类学习将不同的主题讨论区分成集群,同时计算出每一个集群的中心,每一个计算出的中心被认为是一个热点讨论区。判断一个讨论区是否是热点的依据是该讨论区是否在当前时间窗口内受到了广泛的关注,即当前时间段内用户在该讨论区内发帖的数量以及帖子的感情取向情况。除了利用当前时间窗口的数据对讨论区进行聚类,我们还利用前一个时间窗口的数据对当前时间窗口的讨论区进行聚类,即实现对未来时间热点讨论区的预测。新浪体育论坛的31个讨论区成了本研究课题中的主要研究对象,我们将实验建立在了来自这31个讨论区的220053条文本集合上。实验结果表明,SVM预测和K-means聚类的实验结果有很大的吻合性,二者对十大热点讨论区的划分上达到了80%的一致性,而对前四人热点讨论区的结论更是一模一样。这充分地证实了文本倾向性在讨论区聚类分析中所起到的积极作用。这些实验结果有助于我们对新浪论坛的讨论区的热点情况进行分析和排名,以帮助用户对当前热点讨论话题进行一定程度上的把握,使得用户可以通过历史数据来预测未米时间内的热点话题的分布。此外,通过在比对研究中引入五种指标,我们从五个不同的侧面分析了SVM分类器对热点讨论区分布的预测效果。 在基于文本倾向性分析的金融市场波动预测的研究中,我们设计并实现了针对英文文本的感情计算方法,借助机器学习的手段来对金融新闻和股市波动之间的非线性关系进行有效的数学建模和存储,并用训练好的机器学习模型来实现对未来波动的预测。主要的波动率计算模型有两种,一是基于时间窗口的窗口波动率计算模型,一是基于交易日的日波动率计算模型。金融新闻方面,我们研究的对象不仅仅包括新闻的感情倾向值,还包括了金融新闻的数量。研究金融新闻倾向性值和股市波动率之间的关系,以及研究金融新闻量和股市波动率之间的关系,构成了我们这期研究中的两个主要的子课题,前述的两种波动模型也被分别运用到了这两个研究课题中。针对第一个子课题,我们利用SVM同归,文本褒贬感情计算以及GARCH波动模型对股市基于时间窗口的波动进行预测;针对第二个子课题,我们利用ANN同归和SVM回归,结合GARCH波动模型对股市日波动进行预测,并对二者的预测效果进行了比对研究。此外,我们还在现有的数学模型的基础上引入关联方的数据,分析上市公司之间的关联度对波动预测的影响。实验结果表明,文本倾向性和价格波动之间具有更大的相关性,在金融新闻较为密集的时间里,文本倾向性计算可以一定程度上提高波动预测的准确度。同时,金融新闻量和交易量波动之间具有更大的相关性,通过将新闻量作为机器http://bbs.sports.sina.com.cn/treeforum/App/list.php?bbsid=33&subid=0学习的输入,我们可以在交易量波动的预测上取得更好的实验效果。我们在实验中引入了两种预测效果衡量指标,对波动率自身的预测和对波动率变化趋势的预测,实验结果表明,对于前者,日波动率的预测效果要优于基于时间窗口的波动率的预测效果,而我们的实验模型在后者上的表现都比较令人满意。该阶段的研究成果对投资者、分析师、交易者等诸多金融参与者的决策制定提供了理论和实践两个层面的支持。
其他文献
随着计算机科学与网络技术的飞速发展,众多科学研究活动越来越依赖计算机强大的计算和存储能力。科学计算成为继理论和实验之后的第三种科学研究手段。许多科学研究领域的计算
随着计算机技术、多媒体技术以及网络技术的飞速发展,越来越多的图像出现在人们的日常生活中。如何有效地从浩瀚的图像数据中检索出用户需要的图像就成了一个亟待解决的问题,基
随着计算机应用广泛地深入到各个领域,应用系统的访问控制是一个相当重要的研究问题。在数字资源日益增多的背景下,权限控制同时被用来保证数字资源的安全和合理访问。数字图书
随着计算机技术的飞速发展和广泛应用,海量信息的开放与共享日益增强,信息安全性日益成为突出问题。数据库系统作为信息存储的主要场所,保证和加强其安全性是迫切需要解决的研究
人类一直都在进行对知识的探索,并把知识通过不同形式在社会中进行传播。网络教学是人们进行传播知识的一种方式。现行网络远程教育存在着资源标准不统一、共享难度大、个性化
863软件专业孵化器(简称:863孵化器)是科技部863计划建设的面向软件企业的技术服务和企业孵化机构,软件测试服务平台是大多数863孵化器技术服务系统中的重要组成部分。目前大部
位置依赖的信息服务(Location Dependent Information Services,简称LDISs)专指一类与位置相关的信息服务,其用户所提出的请求将会随着空间的变化而得到不同的查询结果。在无线
随着硬件技术的迅猛发展以及网络的普及,很多行业都积累了海量的,以不同形式存储的客户和个体的私人数据资料,这样就会导致这些私有数据可能因为各种各样的目的而被不正当的使用
图像是人类获取视觉信息的主要途径之一,在成像、复制、传输等过程中图像质量下降不可避免。作为图像处理的一个重要分支,图像增强具有重要意义。图像增强的基本任务是改善退化
广东地势复杂,植被类型丰富。植被四季常绿,树种分布无明显季节性和区域性规律,在南部多为混杂,遥感影像上破碎,不同类型植被光谱差异小。广东降水充沛常年云覆盖,使利用光学遥感数