基于互联网新闻文本挖掘的投资与监管辅助决策系统

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:Linuxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
证券市场(包括股票市场、期货市场、黄金市场、债券市场、基金市场、衍生品市场等,本文主要以股市为研究对象)对国民经济的发展起着重要的支撑作用。作为上市公司直接融资的重要场所,中国股市受到越来越多的经济学家及企业人士的关注,股市发展与国民经济息息相关。在这种情况下,探寻影响股市波动的因素也成为一项具有重大意义的课题。股市是一个非常复杂的非线性系统,影响股价波动的因素很多,在众多试图解释影响股价变动因素的理论当中,“信息、流”理论得到了广泛的支持。信息流理论指出驱动股票交易量与股价波动的因素是信息流,这种理论也得到了许多成熟的国外市场实证研究支持。随着网络技术的不断发展,互联网逐渐成为公众获取信息的主要渠道,互联网信息对股市的影响也成为学者热衷的研究方向。大量国内外研究表明,股价波动受互联网信息的影响。然而,互联网信息浩如烟海,如何让投资者及管理者更加直观、便捷地获取及使用信息,解读互联网新闻信息“背后的故事”,为其提供辅助决策,将是一项非常有意义的研究。本文基于新闻量化指标的股票收益预测模型,开发一套“基于互联网新闻文本挖掘的投资与监管辅助决策系统”,该系统目标用户为投资者、上市公司管理者以及证券市场监管者,通过系统各模块功能,为他们提供辅助决策之用。首先,通过文本挖掘技术,对新闻文本进行量化分析,并结合影响上市公司股价的其它相关指标,建立股票收益预测模型,预测新闻发布后7天的股价走势;其次,通过文本分类方法,训练自动文本分类模型,降低人工参与程度,达到对新闻文本自动分类目的,提高新闻文本分类效率;再次,从新闻文本视角出发,对新闻文本进行情感词分析,计算上市公司某一时间段的互联网形象指数,为投资者进行投资选择提供一定的参考;最后,设计开发原型系统,形象直观地展示互联网新闻与上市公司股价“背后的故事”。本文的主要贡献有以下几点:(1)跨网站的互联网新闻抓爬器。当前财经新闻网站众多,如:和讯、新浪、雅虎等,不同财经新闻网站有不同的网页编码格式,这为新闻抓爬器开发带来一定的困难,需要对不同财经新闻网站进行编码,开发不同抓爬器,工作量大且兼容性差。本文借鉴国外网络爬虫相关研究理论,自主开发了互联网新闻抓爬器,可以对不同财经新闻网站新闻进行解析,无需针对不同网站进行编码,兼容性强,准确率高,为本文研究数据提供了强力支撑。(2)新闻文本自动分类。文本分类前期主要依靠专业人员纯手工操作,具有耗时、成本高、效率低等缺陷。本文采用自动文本分类技术,对互联网新闻文本进行分类模型训练,按照已经设定好的新闻类别,自动地将新闻文本划分到其类似的类别中去,从而方便对比研究不同类别新闻对股价波动影响情况,也可为证券市场监管者及上市公司管理者提供决策辅助效用。(3)上市公司互联网形象指数研究。传统企业形象评级方法主要考虑企业硬实力和软实力这两个方面。而本文研究主要从新闻文本信息视角出发,摒弃传统对企业形象评级方法,通过对新闻文本信息进行情感词分析,并按照自设计算法,计算上市公司的互联网形象指数,既可为用户投资提供辅助决策,也可有效地帮助证券市场监管者规范证券市场秩序,保障证券市场公平、合理地运行。(4)原型系统开发。本文采用Java EE技术开发了一套完整监管与投资决策辅助系统,是当前首款将量化的新闻文本信息与股价波动关系进行描述的系统。系统基于Struts2框架,同时结合ExtJS界面设计及Mysql后台数据库,能很好的将新闻信息对上市公司股价波动情况进行直观、形象地展示,为各类型用户(证券市场监管者、上市公司管理者及投资者)决策提供参考。本文的章节内容安排如下:第一章,导论部分。首先简要介绍了本文的背景、意义以及本文主要将解决的问题,然后对国内外学者当前关于新闻对股票影响的研究情况进行了综述,接着指出了本文的主要创新点,最后提出了本文的主要研究方法和思路。第二章,互联网新闻抓爬器研究。首先介绍网络抓爬器的理论,并对本文使用的网络抓爬器做详细地说明,本文新闻抓爬器适用性好,可抓取不同网站、不同格式的网页新闻,兼容性强。第三章,文本挖掘技术相关理论。首先深入阐述了文本挖掘的基本理论;然后按照挖掘出来的模式的不同,对文本挖掘进行了分类;最后,介绍了文本挖掘的一般流程。本章节为后文的自动文本分类及上市公司互联网形象指数研究做了铺垫。第四章,互联网新闻文本自动分类技术研究。首先介绍了文本分类的基本理论、关键技术以及相关分类算法,然后具体阐述了互联网财经新闻进行自动文本分类过程,为本文原型系统中直观展示各类别新闻所占比重以及后续研究各类别新闻对上市公司股价的不同影响程度打下基础。第五章,上市公司互联网形象指数研究。首先介绍了文本情感分析的基本知识,然后介绍了上市公司互联网形象指数研究,最后对形象指数计算过程做了描述。第六章,基于互联网新闻文本挖掘的投资辅助决策系统设计与开发。详细介绍了原型系统的功能模块,详细设计及开发流程。第七章,总结和展望。总结了本文所做的主要工作,对未来研究方向进行了展望。通过本文系统,可以直观、形象地展示互联网新闻背后隐藏的信息,揭示其对股价波动可能造成的影响,为投资者、上市公司管理者及市场监管者提供辅助决策。
其他文献
吉林油田天然气业务的快速发展,加速了天然气长输管道建设的步伐,这就使得吉林油田公司在管道建设、使用过程中管道安全可靠性的问题逐步显现,要确保油田企业能够安全生产、高效
随着XA油田原油产量逐年递增,供电能力不足的问题逐渐突出,为确保安全稳定生产,XA油田对电网进行了改造,根据供电负荷分布情况新建变电所和60kV架空线路,实现投资经济、供电可靠、
刑事证明标准既是一个重大的理论问题,又是长期以来困扰司法实务部门的难题,对该问题进行深入研究十分必要。新刑事诉讼法第五十三条引入了“排除合理怀疑”的表述,意味着“
目的观察养阴清热汤口服配合保妇康栓塞阴治疗慢性宫颈炎宫颈糜烂的临床疗效,观察养阴清热汤联合保妇康栓配合敏感抗生素治疗支原体感染的转阴率,研究宫颈糜烂与支原体感染的
智障儿童是社会的弱势群体,其成长的好坏反映着社会的文明水平。患有唐氏综合症的唐宝宝是智障儿童的一种,他们比正常人多了一条21号染色体,因此患有一种染色体变异性疾病。
民国年间绍兴知识群所流露出的浓烈阳明情结,可谓浙学在现代的重现与复兴。曾在中国现代舞台上独领风骚的绍兴几位泰斗级人物,无论感情上还是思想上,都与王阳明有着千丝万缕
<正>李晨律师:您好!近期,我购买了一套房屋,价格人民币300万元。我和卖家11月10日在中介公司签订了房屋买卖合同,并且当天支付给卖家购房款200万元。由于卖家之前购买该房屋
本文细致地分析了导致经济调查误差的可能原因以及相应调查误差的特征。提出了认识、掌握和重视经济调查误差原因的现实意义。
美国是最早进行大学排行的国家,受传统文化观念和政治经济体制的影响,美国大学排行逐渐形成了比较合理的价值取向。本文深入剖析了美国大学排行的利益需求和价值取向,以及对
自由空间光通信是以激光为载体,把已加载了信息的激光直接发送到大气中,通过大气进行传输的通信技术,又称无线光通信。它结合了光纤通信和微波通信的优点是当今电信热点技术之一