基于深度学习的金融文本分类方法研究

来源 :上海工程技术大学 | 被引量 : 0次 | 上传用户:milo_pine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
金融市场一直在现代社会经济中扮演着重要的角色,而金融相关新闻与金融市场之间存在着相互作用。分类金融类新闻文本可以帮助金融个人或金融机构掌握某一子类中更详细的新闻,从而做出正确的决策。特别是对于专业的财务专家而言,经过分类,详细且有效的金融文本可以掌握当前的先进研究技术和未来的可能研究方向,全面了解网络中的金融信息。现阶段的文本分类多是根据现有的公开数据集进行研究,很少有针对专业领域内的文本分类,这就造成了金融类专业文本分类方法的缺失。为了解决上述问题,本论文则是以金融新闻为数据集,通过深度学习方法进行金融新闻文本分类。本文的主要工作与创新如下:(1)构建中文金融新闻文本数据集。鉴于互联网上没有公开的中文金融新闻文本数据集,所以此次研究利用爬虫技术从中国权威金融网站抓取了数万条文本作为数据集,构建了金融领域的中文数据集,为深度学习金融文本分类模型奠定了良好的数据集基础。(2)系统地提出验证数据集可用性的指标。数据集的质量可以直接影响深度学习的性能,而现阶段并没有系统且有效的验证方法,所以此次研究,系统地提出了验证数据集可用性的指标,具体包括:数据冗余率,数据噪声率,类别比例偏差,类别与内容的匹配程度,成分偏差等。旨在通过这些指标,验证所构建的数据集是否可用,从数据集的角度推进深度学习的发展。(3)利用基于字符级的深度学习方法,分类中文金融新闻文本。与英语文本分类相比,中文文本分类由于汉语的复杂性而更加困难。与此同时,此次研究的文本分类是基于同一专业领域数据集内的子类分类,同一领域内子类之间的差异要小于不同领域大类之间的差异。前人的研究多是基于各个大类下的文本分类,很少出现基于同一领域的子类分类。因此本文提出了AD-Char CGNN神经网络模型进行分类,实验结果表明,该网络分类中文金融文本的准确率可达96.45%。该网络基于字符级别,对于可能包含中文、英文、数字和其他类型字符的金融文本,也会处理的更加容易。本文构建了中文金融新闻文本数据集,提出了数据集评价指标,构建了基于片段式的金融文本分类模型,而未来在具体应用和实践等方面,还有进一步完善的可能性。未来可以通过构建跨语言的文本分类模型,使模型不仅仅应用在中文,还可以应用到英语等其他语言;与此同时,本文所提出的网络结构层次较深,对于小型数据集还未能达到理想的效果,所以未来可以将模型完善,使得小数据集也能参与其中。
其他文献
在乡村地区建设新时代文明实践中心是中国特色社会主义新农村建设的重要组成部分,也是全面建成小康社会,推进基本建成社会主义现代化强国事业的重大举措。我国新时代文明实践中心经过几年来的试点及建设,对于促进乡村振兴战略的落实尤其是我国乡村文化建设发挥了重要作用。因此,加强中国新时代文明实践中心的理论研究和实践探索,对于继续推进我国社会主义现代化建设事业具有重要意义和价值。论文在新时代文明实践中心相关理论研
学位
随着自动驾驶和车联网的发展,对车载导航定位系统的性能要求越来越高。目前,车载导航往往使用多种导航系统进行组合以期提高导航精度和可靠性。GNSS和INS由于优势互补、低成本等优点,是最常用的组合导航方式,但是精度低、可靠性差的缺点限制了GNSS/INS的应用场景。因此,设计一款高精度、高可靠性、低成本的GNSS/INS组合导航系统具有重要的现实意义。本文具体工作内容如下:(1)针对单个IMU误差大、
学位
随着互联网的持续发展,以及数字经济在生产生活中的占比不断上升。越来越多的交易和沟通行为,由线下转向了线上。参与交易双方的人、物是时空分离的,在这样一个高度不稳定,不可信的环境中,一个值得交易双方的信任的系统,就成为促进陌生人之间合理合法网络交易繁荣的保障。区块链作为一种新型的去中心化数据处理协议,其信息可追溯,不可篡改,容灾备份性能优异,不依赖特定机构背书的特点引起了国内外研究者的广泛关注。现行区
学位
科技水平的提高,推动了机器人产业的蓬勃发展,移动机器人获得了普遍关注,被应用到了多个领域,机器人路径规划随之成为了研究的热点。近年来,学者们提出了许多方法来解决机器人路径规划问题,蚁群算法便是其中之一。然而,在求解大规模优化问题时,蚁群算法的性能有所不足。因此,本文以经典蚁群算法理论为基础,分别提出了单种群和多种群的改良思路;然后以旅行商问题为例,分析了算法的性能;最后将改进算法应用于机器人路径规
学位
中国共产党发展壮大的过程就是中国共产党人民观的形成完善过程。中国共产党人民观的形成有着深厚的理论渊源,并将其与中国的具体实际相结合,创造了具有中国特色的人民观——中国共产党的人民观。中国共产党的人民观经过了长时间的发展,有着极为丰富的内容,主要体现在全心全意为人民服务、一切为了群众,一切依靠群众、从群众中来到群众中去等方面。党的十八大以来,我国在各个方面取得了一系列的重大成果,社会主义也迎来了新的
学位
随着计算机视觉技术快速发展,世界各国研究者们对多目标跟踪技术研究日发关注。同时,目标检测结果作为跟踪技术研究的输入,目标检测技术也被视为跟踪技术研究重要一环得到了广泛关注,从而促进了多目标检测和跟踪技术在智能安防,智慧交通,自动驾驶,智慧医疗领域的应用。目前,虽然多目标检测与跟踪技术已取得很大进展,但是在实际应用过程中,仍有许多问题需要解决。本课题主要解决了光照变化,目标遮挡造成的目标检测过程中漏
学位
在党的十九大报告中,习近平总书记多次明确提出“不忘初心,牢记使命”,在建党百年之际,青年学习党史,可以鉴往知来,增强历史自觉,为新时代全面建设社会主义国家而不懈奋斗。追根溯源,北京地区党史的开端便是1920年10月成立的北京共产主义小组,该小组成功领导了北京地区乃至北方地区最初的共产主义运动,为中国共产党的创立做出了重要贡献。研究北京共产主义小组与中国共产党的创立,目的是通过对相关史料的挖掘,尽可
学位
肝硬化为临床常见的慢性进行性疾病,随着病程的进展,最终可发展为肝癌,具有较高的死亡率。肝硬化疾病的早期诊断,有助于后续进行相应的治疗,提高患者的生存质量,是医学领域重要的研究课题之一。本文依据计算机视觉、机器学习等相关的理论和方法,结合临床诊断的先验知识,分别从肝硬化高频超声图像的肝包膜和肝实质两部分出发,实现了肝硬化分期的辅助诊断研究。本文的研究主要涉及以下内容:肝包膜自动提取算法;基于肝包膜形
学位
“红船精神”是在时代发展变化的过程中,在结合时代特点的基础上,对中华民族优秀传统文化不断推陈出新,进行创造性转化的成果。作为中国共产党革命精神的源头和奠基,“红船精神”不断创新,与时俱进,在不同的历史时期增添和发展了新的内容,焕发了新的生机活力。本文从马克思主义总体性方法论出发,把握“红船精神”的历史生成、科学内涵,利用史实资料,回到历史现场,从获取到的历史资料出发得出结论。在研究的过程中,将时间
学位
培育青年奋斗精神是开启全面建设社会主义现代化国家新征程的重要内容。青年作为社会主义现代化建设的生力军,承担着实现民族复兴的历史重任。新时代青年富有奋斗朝气与活力,具有创造力与创新意识,志向远大、充满自信,但同时部分“精致利己主义”、“佛系”青年奋斗意志消沉,行为懈怠,甚至引致不良朋辈同化效应,给教育事业和青年工作带来严峻的现实挑战。新时代青年正确理解为何奋斗、如何奋斗等成为当前青年教育亟待解决的重
学位