互联网财经新闻对股市影响的定量分析

被引量 : 0次 | 上传用户:west_fox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
影响股市波动的因素很多,有市场行情、通货膨胀、交易策略、公司本身等等因素。实际上,所有与财经相关的信息都会影响证券市场股价的波动。这些信息、最终可以归结为定量信息和定性信息。定量信息是指可以直接获得的实际观测数据,即技术指标,例如红利股价比、账面市值比、利润等。而定性信息、是指不能直接用数据精确描述的因素,例如商业环境、文化程度、技术优势、战争、自然灾害、政府经济政策变动等等,互联网财经新闻中就包含了大量的这种定性信息。新闻对股市有影响,这已经是学术界和实业界公认的事实。互联网财经新闻作为信息时代公众获取财经信息的主要渠道,其与股市波动之间必然有着某种关联,但其对上市公司的报道将是如何影响证券市场股票的价格波动,即:新闻报道对股市的影响第几天最为显著?新闻报道对股市影响的持续时间是多长?中国股票市场分为沪深两市,那么互联财经网新闻对沪深两市股票产生的影响强度、影响周期是否一致?如果不同,那么分别又体现在哪些方面。这一系列问题的解决,对于监管者进行股市制度改革、投资者投资策略选择、承销商承销方案制订等都具有重要的参考意义。然而目前为止,计算机科学领域学者对新闻与股市波动之间关系的研究,仅局限于预测新闻对股价的影响,并未系统分析两者之间的种种关联。然而,影响股价波动的因素很多,这使得用新闻预测股价的准确度较低,从而实用价值一直不高。计算机领域学者之所以并未系统分析新闻与股市之间关系,是因为此问题的解决需要借助计量经济学的分析方法。目前,经济学领域学者对新闻与股市的研究,由于技术的局限性,仅是简单地分析新闻标题、新闻数量等与股市波动之间的关系,并未挖掘新闻文本信息,而新闻文本中通常包含大量有价值的软信息。造成这种现状的原因是挖掘新闻文本中包含的信息需要计算机领域的文本挖掘技术。总之,各领域都存在技术局限性,使得系统地分析新闻文本信息与股市波动之间关系这项研究还处于知识空白。基于此,本篇文章跨计算机科学与经济学两学科,利用文本挖掘技术中的支持向量回归模型和计量经济学中多元回归分析方法,将新闻内容量化为造成股市波动的一个影响因子,首次从宏观层面上,系统地分析互联网新闻文本信息对中国股市的影响。本文采用如下技术方案来研究新闻对股市的影响:(1)采用文本挖掘技术,量化定性新闻这种无结构的文本信息对股市的影响,量化结果作为定性新闻对股市影响的一个因子。此阶段涉及的文本挖掘技术有向量空间模型、TFIDF加权方法、特征降维、中文分词、支持向量回归等等。如何选择最优方法,提高量化结果的准确性,这是此阶段需要解决的问题,也本篇文章的关键点。本文根据股市特性,建立股市特有的特征词库来进行文本向量化,从而将无结构的文本信息转换为结构化的向量形式。在向量化过程中,本文采用TFIDF来进行特征加权,采用同义词词库进行特征降维,从而得到最终的新闻文本向量。然后采用支持向量回归来建立新闻文本向量与股票收益率之间的回归模型,用此模型来量化新闻对股市的影响,量化结果作为定性新闻影响股市的因子。(2)将定性新闻对股市影响的因子与定量的影响股市的主要技术指标相结合,采用计量经济学的多元线性回归模型,依据各种假设检验来分析新闻是如何影响股市,影响的显著性等问题。具体而言,本文将量化后的新闻对股市影响的因子作为多元回归模型的解释变量之一,将股票累计异常收益率作为被解释变量,采用统计检验方法来检验多元回归模型的拟合优度、方程显著性和新闻等因子的显著性问题,从而具体分析新闻因子与股市波动之间的关系。通过实验,我们发现:沪深两市上市公司的新闻报道后都会影响该上市公司的股票的波动,但对深市上市公司股票的影响要强于沪市股票,而且,沪市上市公司的新闻影响力度和持续时间均小于深市上市公司。同时,我们发现,新闻报道后沪市上市公司的收益明显受到公司规模的影响,经分析可得,对于规模越大的公司,新闻报道对其股票产生的影响越不明显,对于规模越小的公司,新闻报道对其产生的影响越大,且持续时间越长。本文的创新之处可以从以下方面加以详述。(1)本文从研究方法上来讲,创新之处在于:融合计算机领域的文本挖掘技术与经济学领域的计量方法,跨学科角度解决新闻与股市波动之间的关系问题。财经新闻内容中包含大量影响股市的信息,本文采用计算机领域中的文本挖掘技术来量化这些信息对股市的影响,并将量化结果作为影响股市收益率的一个指标因子,融合影响股市的几个主要技术指标,采用计量经济学中多元线性回归分析的各种假设检验方法,来分析新闻如何影响股市,影响持续时间以及影响强度等问题。(2)本文从研究角度来讲,创新之处在于:目前大部分研究还主要集中在用新闻预测股价方面。本文利用文本挖掘技术和计量经济学方法,将新闻内容量化为影响股市波动的一个因子,系统分析互联网财经新闻对中国股市的影响。同时,中国股市分为沪深两市,但目前为止,很少有研究将沪深两市进行对比分析。本文致力于研究互联网财经新闻对沪市和深市股票产生的影响强度、影响周期是否一致等问题。(3)本文从技术方面来讲,创新之处在于:针对股市特性,本文建立了股市专有的特征词以及同义词词库。在对新闻文本进行中文分词时,将股市特征词库加入分词字典,增加分词准确性。在用文本挖掘技术进行新闻文本向量化时,本文采用的方法是基于特征词库的向量化方法,同时根据同义词词库对文本向量化结果进行特征降维,从而得到一个较为合理的向量化结果。本文的内容结构安排如下:第一部分介绍论文的研究背景、研究意义以及研究方法;第二部分对本文涉及的相关技术进行介绍,本文涉及两个领域的相关知识,故此部分按领域分别进行介绍;第三部分介绍实验过程所需数据的准备工作,本实验所需数据分为两大块,即新闻数据和股票交易日数据,故此部分分别介绍两块数据的获取以及预处理工作;第四部分介绍实验步骤以及实验结果;第五部分对整篇论文做总结以及展望。
其他文献
本论文以西方中世纪建筑装饰元素为出发点,分析在中国近现代时期其对中国近现代室内设计的影响。在十九世纪初期,随着外国侵略者的到来,我国的政治、经济、文化以及生活的各个方
很长一段时间,人们一直追求语言的精确性而忽略语言的模糊性。而实际上,模糊性是自然语言以及人类思维的内在属性,模糊现象广泛的存在于我们生活的方方面面。早在公元前4世纪
随着现代化发展逐渐多元化,经济发展飞速、人口流动加快、子女数量递减及人口预期寿命延长等因素共同影响,致使我国空巢老人的数量逐年递增。我国的老龄人口每年以3.28%的速
产后宫缩痛是指产褥早期因宫缩引起下腹部阵发性剧烈疼痛.子宫疼痛时呈强直性收缩,于产后1~2日出现,持续2~3日,可放射至腰骶部,影响产妇产后休息和恢复.灸法具有温肾暖宫,活血
烟草,作为一种特殊的商品,备受争议。在我国,烟草企业是国家财政收入的重要来源之一,烟草行业实行烟草专卖制度,烟草企业纳入国有企业体系。同时,烟草是具有刚性需求的上瘾性
绿色发展是科学发展观的重要组成部分。它要求生态环境容量和资源承载力的约束条件下,在经济发展过程中,利用尽量少的资源,同时将经济发展对环境的破坏降低到最低限度。因此,
完善的公共基础设施是经济发展的必备条件。在经济飞速发展的今天,我国对公共基础设施建设的需求量是相当巨大的,但是政府财政资金短缺制约着公共基础设施的完善。另外,公共
在社会保障制度的推进过程中,社会保障基金的平衡问题越来越受到人们的关注,这主要涉及到社会保险基金的筹集、社会保障待遇的发放及社会保障基金的投资等诸多方面,而这其中
中国股票市场经历20年风雨历程,在徘徊中探索,于曲折中前进,成绩斐然,举世瞩目。中国股票市场的诞生和成长,不仅进一步丰富和完善了我国金融体系,也有效拓宽了众多企业融资及
随着人们生活水平的提高,对自身营养健康越发重视,作为优质营养品的牛奶也必然成了人们生活中不可或缺的食物。因为具有不可替代的营养地位,牛奶成为了每个家庭每天必需的食