论文部分内容阅读
随着计算机和通讯技术的发展,互联网上日益出现的海量数据以指数级别的速度不断地增加,其中大部分数据是非结构化的文本数据。如何高效地处理这些非结构化的数据,从中快速地提取出有用的信息,对批量挖掘互联网数据有着不可估量的意义。近几年来,关于文本倾向性分析,也叫做文本情感计算,的研究逐渐成为国内外所关注的一个热点。文本倾向性(也叫做文本褒贬性或者文本情感)描述的是文本所传递的情感。我们希望借助计算机技术自动地分析文本信息所包含的情感因素,例如喜欢或讨厌、止面或负面、快乐或悲伤、愤怒和恐惧等。本文的研究从互联网文本倾向性分析,即文本情感计算出发,设计并实现对每一个文本赋予一个数值的算法,其大小表示文本影响强度,其止负号代表文本的感情取向。随后,该算法将被用于实现体育和金融两个专题领域的两项挖掘课题研究,分别是基于文本倾向性分析的体育论坛聚类分析和基于文本倾向性分析的金融市场波动预测。
在基于文本倾向性计算的互联网体育论坛聚类分析研究中,本文设计并实现了针对中文文本的感情计算算法,结合K-means聚类算法和SVM预测算法,对互联网体育论坛的结构按照用户关注程度进行聚类分析。我们通过无监督的聚类学习将不同的主题讨论区分成集群,同时计算出每一个集群的中心,每一个计算出的中心被认为是一个热点讨论区。判断一个讨论区是否是热点的依据是该讨论区是否在当前时间窗口内受到了广泛的关注,即当前时间段内用户在该讨论区内发帖的数量以及帖子的感情取向情况。除了利用当前时间窗口的数据对讨论区进行聚类,我们还利用前一个时间窗口的数据对当前时间窗口的讨论区进行聚类,即实现对未来时间热点讨论区的预测。新浪体育论坛的31个讨论区成了本研究课题中的主要研究对象,我们将实验建立在了来自这31个讨论区的220053条文本集合上。实验结果表明,SVM预测和K-means聚类的实验结果有很大的吻合性,二者对十大热点讨论区的划分上达到了80%的一致性,而对前四人热点讨论区的结论更是一模一样。这充分地证实了文本倾向性在讨论区聚类分析中所起到的积极作用。这些实验结果有助于我们对新浪论坛的讨论区的热点情况进行分析和排名,以帮助用户对当前热点讨论话题进行一定程度上的把握,使得用户可以通过历史数据来预测未米时间内的热点话题的分布。此外,通过在比对研究中引入五种指标,我们从五个不同的侧面分析了SVM分类器对热点讨论区分布的预测效果。
在基于文本倾向性分析的金融市场波动预测的研究中,我们设计并实现了针对英文文本的感情计算方法,借助机器学习的手段来对金融新闻和股市波动之间的非线性关系进行有效的数学建模和存储,并用训练好的机器学习模型来实现对未来波动的预测。主要的波动率计算模型有两种,一是基于时间窗口的窗口波动率计算模型,一是基于交易日的日波动率计算模型。金融新闻方面,我们研究的对象不仅仅包括新闻的感情倾向值,还包括了金融新闻的数量。研究金融新闻倾向性值和股市波动率之间的关系,以及研究金融新闻量和股市波动率之间的关系,构成了我们这期研究中的两个主要的子课题,前述的两种波动模型也被分别运用到了这两个研究课题中。针对第一个子课题,我们利用SVM同归,文本褒贬感情计算以及GARCH波动模型对股市基于时间窗口的波动进行预测;针对第二个子课题,我们利用ANN同归和SVM回归,结合GARCH波动模型对股市日波动进行预测,并对二者的预测效果进行了比对研究。此外,我们还在现有的数学模型的基础上引入关联方的数据,分析上市公司之间的关联度对波动预测的影响。实验结果表明,文本倾向性和价格波动之间具有更大的相关性,在金融新闻较为密集的时间里,文本倾向性计算可以一定程度上提高波动预测的准确度。同时,金融新闻量和交易量波动之间具有更大的相关性,通过将新闻量作为机器http://bbs.sports.sina.com.cn/treeforum/App/list.php?bbsid=33&subid=0学习的输入,我们可以在交易量波动的预测上取得更好的实验效果。我们在实验中引入了两种预测效果衡量指标,对波动率自身的预测和对波动率变化趋势的预测,实验结果表明,对于前者,日波动率的预测效果要优于基于时间窗口的波动率的预测效果,而我们的实验模型在后者上的表现都比较令人满意。该阶段的研究成果对投资者、分析师、交易者等诸多金融参与者的决策制定提供了理论和实践两个层面的支持。