论文部分内容阅读
我国的证券市场已经走过了24年的历程,1990年12月19日,上海证券交易所开业,而后,深圳证券交易所相继于1991年7月3日正式开业。据中国证监会数据显示,截至2014年10月底,我国境内沪深两市上市公司(包括A、B股)数量为2584家,根据最新的统计结果显示,我国在2014年的国内生产总值达到了63.65万亿元,A股股票市值为37.11万亿元,由此可得我国的证券化率为58.3%。证券市场的稳定关乎着我国整个经济命脉,证券市场在我国经济形势中扮演着晴雨表的角色。
随着信息技术突飞猛进的发展,互联网也逐渐成为人们信息交流的平台,特别是Web2.0时代的到来,相继出现了博客、论坛、微博、Facebook、微信等社交媒体工具,这些平台往往都是开放的,任何人都可以参与,同时它们恰恰是一些志趣相投的人们的交流平台,用户可以跨越时间和空间上的距离,在互联网媒体上随时获得自己感兴趣的信息,甚至发布自己想要与他人分享的信息。这些信息也就以从1到N的裂变速度快速传播在互联网上,它们往往内容及时、受众面广。正是由于社会化媒体的如此特性,也带来了许多风险因素,网络上有些虚假、片面、炒作性的新闻的传播,往往对我国的社会稳定和社会和谐带来了不利的影响。由此,可以大胆猜测,传统媒介和新兴的社交媒体上广泛流传的信息,很可能会影响到我国现如今正在日益完善发展的证券市场的稳定。
证券市场的稳定通常被诠释为证券的价格围绕国家的宏观经济形式和企业的基本面信息在一定范围内有较小的波动。解释证券市场波动的理论较多,其中两个重要的基础分支就是传统金融学中基于市场对信息吸收能力的“有效市场假说”和行为金融学中的基于非理性投资者的心理理论。虽然这两个理论对证券市场波动形成的原因和机制的解释不尽相同,但都认同证券市场的波动与媒体关于资本信息的发布、传播和吸收是紧密相关的。一方面,媒体的信息传播能力有利于降低市场参与者之间的信息不对称度,从而提高证券市场的有效性和维持市场的稳定。另一方面,违规、片面或者虚假的信息的传播,不仅严重冲击了股价,还极大地动摇了投资者对证券市场信息真实性和透明性的信心,从而影响证券市场的融资能力和对社会资本的配置能力。
行为金融学告诉,个人的情感可以影响个体自身的行为和决策制定,那么,是否可以大胆地推测,公众的信息发布及互动交流行为会影响整个集体的投资决策呢?也就是说,量化后的互联网财经信息是否与经济指标具有某种相关关系,甚至可以预测这些经济指标呢?其实,使用互联网信息分析股市的研究起源于80年代末,现如今在国外已经成为研究的热点,综合国内外相关文献,可以发现:1)互联网信息对股市影响的研究在国外居多,在国内较少,而将传统的门户网站和社交媒体结合起来,量化出有价值的信息和公众情绪指标来研究中国股市的研究更是罕见,那么,鉴于中国的证券市场与国外的市场运作机制存在着些许不同之处,我国的互联网财经信息与证券市场之间又是否存在着类似的内在关联呢?2)计算机领域的学者们对该问题的研究大多数限于利用媒体来预测股价,而不会深层次探析互联网信息对股价影响的具体内在相关关系是怎样的;而经济学领域的学者们又由于技术上的局限性,并不深层次挖掘这些文本的内容,还停留在片面的统计上面。因此,将计算机技术和经济学的研究方法结合起来,来探究互联网财经信息与证券市场的内在相关关系就显得具有一定的研究价值了;3)大多数文献仅是探索互联网财经信息与股市之间的相关关系,而未进行具体的股价预测,另外,涉及到股价预测的仅是对大盘指数进行预测,而非具体到个股层面。
基于以上的思考,本文就大胆尝试,涉足交叉学科,将计算机技术和经济学研究方法相融合,分别从定性分析和定量分析两个角度来研究互联网财经信息与中国股市的内在关联,具体创新贡献和研究方法如下:
(1)从定性分析角度,将中证100指数的共计42家成分股公司作为研究对象,设计网络爬虫来实时抓取它们在当下最活跃的财经论坛——东方财富论坛上面的帖子,采用文本挖掘技术计算出发帖量指标和负面情感占比指标,结合经典的Fama-French三因素模型,使用计量经济学中的面板数据回归研究方法,将FF三因素模型中的异常收益率作为被解释变量,除三因子:市场资产组合(Rm-Rf)、市值因子(SMB)、账面市值比因子(HML)依旧是解释变量外,还分别加入了不同指标,设计了三个模型(加入发帖量指标的AR-PV模型、加入负面情感占比指标的AR-SENT模型、同时加入发帖量指标和负面情感占比指标的AR-PV&SENT模型),通过观察回归方程结果的可决系数R方、系数的显著性等,实证研究发帖量、负面情感占比指标与相应上市公司异常收益率之间是否存在着显著的相关关系?以及这种关系具体有何不同?又分别将交易量和波动率因子作为被解释变量,发帖量和负面情感占比指标依次作为解释变量,构造面板数据回归模型,意在探索社会化媒体(本文主要研究论坛)与中国股市之间的相关关系,这是对中国股票市场研究的大胆探索和有益尝试,本文所分析出的结果并不晦涩难懂,而是直观形象地展示出两者的内在相关关系,易于被大众所理解和接受。
(2)从定量分析角度,本文设计自动抓取和实时更新的网络爬虫,从热门财经网站和论坛抓取下来新闻和帖子,将这些非结构化的文本采用当下热门的文本挖掘技术进行深层次地挖掘,使用的文本挖掘技术有:中文分词、特征选择、文档的向量空间表示(采用TF-IDF加权技术)、支持向量机算法等。分以下几个方面来定量研究互联网财经信息与股价之间的关系:1)采用文本挖掘技术量化财经新闻和帖子的内容,是否可以有效地对个股进行收盘价的预测?这种影响力度又会持续多久呢?2)传统的研究往往将各种类别的新闻对股价的预测视为等效的,而本文采用了文本分类技术,将互联网上报道的财经新闻通过人工标记、分类器的训练和预测,将这些财经新闻分成了六大类别:盈余报告类、财务问题类、一般问题类、法律问题类、经营问题类和重组问题类,以求探析不同类别的财经新闻对股价的影响强度是否不一样?3)将上市公司根据其基本面信息:交易量、换手率、市盈率(P/E)、市净率(P/B)和风险beta值依次分为大、中、小三个类别,以求探析是否对于本身具有不同特点的公司,使用互联网财经信息对其收盘价的预测具有着不同的效果?
通过实验,发现:1)定性分析的结果表明,在我国的证券市场中,社会化媒体与中国股市之间确实存在某种内在相关关系,具体表现为:发帖量对股票异常收益率、交易量和波动率有较显著的影响且呈正相关性,异常高或低的负面情绪往往伴随着交易量和波动率的变大,负面情绪的比重越大,股票的异常收益就会越低。2)定量分析的结果表明,通过对互联网财经新闻和论坛的帖子进行文本挖掘,这些信息可以用来预测上市公司的每天的收盘价,预测的趋势准确率达到0.5679,数值准确率达到0.5766,且这种影响力度可以持续3天(即在这三天内较为显著);3)不同类别的新闻对收盘价的预测的能力有所不同,其中重组问题类、经营问题类和盈余报告类这三个类别的新闻,在对个股收盘价进行预测时,整体预测精度较高;4)互联网财经信息对上市公司收盘价的预测能力因公司本身所具有的特点而有很大的不同,研究发现在对高交易量、高换手率、高风险beta值、中等市盈率、中等市净率的个股收盘价进行预测时,可以获得较好的预测效果。
随着信息技术突飞猛进的发展,互联网也逐渐成为人们信息交流的平台,特别是Web2.0时代的到来,相继出现了博客、论坛、微博、Facebook、微信等社交媒体工具,这些平台往往都是开放的,任何人都可以参与,同时它们恰恰是一些志趣相投的人们的交流平台,用户可以跨越时间和空间上的距离,在互联网媒体上随时获得自己感兴趣的信息,甚至发布自己想要与他人分享的信息。这些信息也就以从1到N的裂变速度快速传播在互联网上,它们往往内容及时、受众面广。正是由于社会化媒体的如此特性,也带来了许多风险因素,网络上有些虚假、片面、炒作性的新闻的传播,往往对我国的社会稳定和社会和谐带来了不利的影响。由此,可以大胆猜测,传统媒介和新兴的社交媒体上广泛流传的信息,很可能会影响到我国现如今正在日益完善发展的证券市场的稳定。
证券市场的稳定通常被诠释为证券的价格围绕国家的宏观经济形式和企业的基本面信息在一定范围内有较小的波动。解释证券市场波动的理论较多,其中两个重要的基础分支就是传统金融学中基于市场对信息吸收能力的“有效市场假说”和行为金融学中的基于非理性投资者的心理理论。虽然这两个理论对证券市场波动形成的原因和机制的解释不尽相同,但都认同证券市场的波动与媒体关于资本信息的发布、传播和吸收是紧密相关的。一方面,媒体的信息传播能力有利于降低市场参与者之间的信息不对称度,从而提高证券市场的有效性和维持市场的稳定。另一方面,违规、片面或者虚假的信息的传播,不仅严重冲击了股价,还极大地动摇了投资者对证券市场信息真实性和透明性的信心,从而影响证券市场的融资能力和对社会资本的配置能力。
行为金融学告诉,个人的情感可以影响个体自身的行为和决策制定,那么,是否可以大胆地推测,公众的信息发布及互动交流行为会影响整个集体的投资决策呢?也就是说,量化后的互联网财经信息是否与经济指标具有某种相关关系,甚至可以预测这些经济指标呢?其实,使用互联网信息分析股市的研究起源于80年代末,现如今在国外已经成为研究的热点,综合国内外相关文献,可以发现:1)互联网信息对股市影响的研究在国外居多,在国内较少,而将传统的门户网站和社交媒体结合起来,量化出有价值的信息和公众情绪指标来研究中国股市的研究更是罕见,那么,鉴于中国的证券市场与国外的市场运作机制存在着些许不同之处,我国的互联网财经信息与证券市场之间又是否存在着类似的内在关联呢?2)计算机领域的学者们对该问题的研究大多数限于利用媒体来预测股价,而不会深层次探析互联网信息对股价影响的具体内在相关关系是怎样的;而经济学领域的学者们又由于技术上的局限性,并不深层次挖掘这些文本的内容,还停留在片面的统计上面。因此,将计算机技术和经济学的研究方法结合起来,来探究互联网财经信息与证券市场的内在相关关系就显得具有一定的研究价值了;3)大多数文献仅是探索互联网财经信息与股市之间的相关关系,而未进行具体的股价预测,另外,涉及到股价预测的仅是对大盘指数进行预测,而非具体到个股层面。
基于以上的思考,本文就大胆尝试,涉足交叉学科,将计算机技术和经济学研究方法相融合,分别从定性分析和定量分析两个角度来研究互联网财经信息与中国股市的内在关联,具体创新贡献和研究方法如下:
(1)从定性分析角度,将中证100指数的共计42家成分股公司作为研究对象,设计网络爬虫来实时抓取它们在当下最活跃的财经论坛——东方财富论坛上面的帖子,采用文本挖掘技术计算出发帖量指标和负面情感占比指标,结合经典的Fama-French三因素模型,使用计量经济学中的面板数据回归研究方法,将FF三因素模型中的异常收益率作为被解释变量,除三因子:市场资产组合(Rm-Rf)、市值因子(SMB)、账面市值比因子(HML)依旧是解释变量外,还分别加入了不同指标,设计了三个模型(加入发帖量指标的AR-PV模型、加入负面情感占比指标的AR-SENT模型、同时加入发帖量指标和负面情感占比指标的AR-PV&SENT模型),通过观察回归方程结果的可决系数R方、系数的显著性等,实证研究发帖量、负面情感占比指标与相应上市公司异常收益率之间是否存在着显著的相关关系?以及这种关系具体有何不同?又分别将交易量和波动率因子作为被解释变量,发帖量和负面情感占比指标依次作为解释变量,构造面板数据回归模型,意在探索社会化媒体(本文主要研究论坛)与中国股市之间的相关关系,这是对中国股票市场研究的大胆探索和有益尝试,本文所分析出的结果并不晦涩难懂,而是直观形象地展示出两者的内在相关关系,易于被大众所理解和接受。
(2)从定量分析角度,本文设计自动抓取和实时更新的网络爬虫,从热门财经网站和论坛抓取下来新闻和帖子,将这些非结构化的文本采用当下热门的文本挖掘技术进行深层次地挖掘,使用的文本挖掘技术有:中文分词、特征选择、文档的向量空间表示(采用TF-IDF加权技术)、支持向量机算法等。分以下几个方面来定量研究互联网财经信息与股价之间的关系:1)采用文本挖掘技术量化财经新闻和帖子的内容,是否可以有效地对个股进行收盘价的预测?这种影响力度又会持续多久呢?2)传统的研究往往将各种类别的新闻对股价的预测视为等效的,而本文采用了文本分类技术,将互联网上报道的财经新闻通过人工标记、分类器的训练和预测,将这些财经新闻分成了六大类别:盈余报告类、财务问题类、一般问题类、法律问题类、经营问题类和重组问题类,以求探析不同类别的财经新闻对股价的影响强度是否不一样?3)将上市公司根据其基本面信息:交易量、换手率、市盈率(P/E)、市净率(P/B)和风险beta值依次分为大、中、小三个类别,以求探析是否对于本身具有不同特点的公司,使用互联网财经信息对其收盘价的预测具有着不同的效果?
通过实验,发现:1)定性分析的结果表明,在我国的证券市场中,社会化媒体与中国股市之间确实存在某种内在相关关系,具体表现为:发帖量对股票异常收益率、交易量和波动率有较显著的影响且呈正相关性,异常高或低的负面情绪往往伴随着交易量和波动率的变大,负面情绪的比重越大,股票的异常收益就会越低。2)定量分析的结果表明,通过对互联网财经新闻和论坛的帖子进行文本挖掘,这些信息可以用来预测上市公司的每天的收盘价,预测的趋势准确率达到0.5679,数值准确率达到0.5766,且这种影响力度可以持续3天(即在这三天内较为显著);3)不同类别的新闻对收盘价的预测的能力有所不同,其中重组问题类、经营问题类和盈余报告类这三个类别的新闻,在对个股收盘价进行预测时,整体预测精度较高;4)互联网财经信息对上市公司收盘价的预测能力因公司本身所具有的特点而有很大的不同,研究发现在对高交易量、高换手率、高风险beta值、中等市盈率、中等市净率的个股收盘价进行预测时,可以获得较好的预测效果。