股票市场预测的文本挖掘技术和系统实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:hydhyd112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文研究历史网页文档与股票市场行为的相关性,并建立预测模型来深入分析和定量评估网页文档在股票市场预测中的作用和效果。通过中国网络信息博物馆(Web Infomall[1])的历史文档数据,本文使用网页文本数据建立了一个预测模型和实现了一个辅助定量交易的系统。最后我们通过此系统模拟了对中国股票市场交易行为,实验显示我们的预测模型和交易系统取得了良好的回报率。  本研究主要内容包括:⑴通过仔细分析和研究,通过统计的验证,针对每个股票选取了与之高度相关的网页文档,用于后续的预测和分析。⑵定量的识别出股票序列的趋势走向,并基于此作为预测模型的指标。传统股票分析技术基于时间序列的线性回归来分析和预测股票,我们使用了相关的文本特征来改进这个过程。同时,我们还使用文本特征建立了基于SVM的分类模型,和CRF的序列标注模型。实验表明,通过结合文本特征,线性回归模型和SVM分类模型能够优于传统的股票分析技术,达到良好的预测效果。⑶开发了辅助定量交易决策的China Stock Analyst系统。该系统使用了Web Infomall的历史网页数据,从中选取了2006年到2011年6年间的485,700篇高质量的新闻网页来训练模型。通过这个系统,交易员能够更高效地浏览和评估网络中对股票的新闻报道和评论,通过预测的趋势能更好地捕获市场的看法,从而做出合理有力的决策。
其他文献
内容中心网络(Content-centric networking,CCN)是由美国帕罗阿图研究中心提出并致力于发展的下一代基于内容的互联网的基础协议及底层架构。随着近十几年来互联网上用户和内
众所周知,地理问题分析与求解是一个非常复杂的过程。而将分析出的地理模型实现成可运行的程序更是一项庞大的工程,需要消耗很多的人力和财力。当前现状是,大量实用地理模型己被
失语症形成的原因有多种多样,脑卒中等神经疾病是导致言语缺失最常见的原因。由脑卒中引起失语症可以通过言语康复训练进行恢复,从而提高他们的交流能力,让他们更好的融入生活。
音乐情感分类在音乐检索和音乐推荐等方面具有广泛的应用。国内主流的搜索引擎百度(Baidu)和门户网站网易(163)都相继推出了音乐情感检索系统,但检索的准确率都不高。以往的
船舶自动识别系统(Automatic Identification System,简称AIS),是新一代的海上通信导航系统,能够实现船舶、船岸间的船舶表示、位置、航向、航速等航行信息的自动交换。随着船舶自
作为许多数值模拟的前处理过程,网格生成过程很大程度上影响着求解的效率和正确性。非结构网格由于其对复杂外形的良好适应性,正逐渐成为诸如计算流体力学(CFD: Computational
随着互联网的发展,针对每一个用户提供不同的个性化服务的推荐系统已经深入到互联网的各个领域。本文对推荐系统的国内外研究和应用现状进行了调研,然后提出了一个推荐系统框
本文采用人工生命的方法来研究蜂群复杂的行为。首先,在对蜜蜂个体的行为进行分析和归纳的基础上,建立了蜜蜂的感知模型、环境模型、移动规则、觅食规则、避障规则、记忆规则
随着计算机应用的快速发展和普及,现代软件逐渐呈现出规模越来越大、复杂性越来越高、生命周期越来越紧、功能要求越来越强等特征,这也从客观上要求必须提高软件的可扩展性。近
随着互联网以及Web技术的快速发展,Web应用成为重要的信息获取和交流平台。应用开发者希望应用能在各种主流的浏览器平台上表现一致,但由于浏览器实现技术的差异以及对标准支持