年报文本与数据分析及可视化的设计与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:xuanka11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业年报由大量文本和经济数据构成,这些文本和经济数据一直是我们数据分析和文本挖掘中的热点,如何快速准确的提取这些信息,以及对提取的数据进行预测,对文本进行分析是本文研究的重点。在数据研究方面本文首先利用LSTM模型,对用户关心的股票价格及其变化趋势进行预测,实验中利用相应的特征比如开盘价,收盘价等和标签实现了预测任务。通过结果可以观察到,模型可以预测出未来一段时间的股价走势,以及预测的股价也和真实值较为贴近。其次,为了更好的捕捉行业未来的动向,我们进行了股价收益排名预测,因为比起股价,更多用户更加关心每只股票的收益情况,但是传统的回归任务并不能很好的考虑排名中的位置信息,在每次迭代中,不能更好的利用位置信息进行位置排序更新。为了解决这一问题,我们引入了排序学习的方法。结合排序学习的方法,我们提出基于排序学习的股价收益预测模型,实现对股价收益排名的合理预测,实验结果表明在股价排名预测任务中有显著的提升效果,并最终在可视化环节,对预测的排名进行展示。在文本处理方面,首先着手于文本分类实验,将报表中的财务指标描述类文本从PDF中进行提取,在进行完分词,去停用词等预处理后,利用朴素贝叶斯分类器,实现了企业盈利亏损的二分类实验,并且在测试集上的准确率为0.832。其次是对文本中的实体和实体间的关系进行抽取,实体识别任务采用基于标注的识别方式借助LTP工具包,成功识别了报表中的人名,机构名等实体,借助基于依存关系的中文关系抽取方法,对文本的关系进行抽取,得到关系三元组,结合识别出来的实体,过滤出符合需求的实体关系三元组,最后利用企业关系图谱的方式进行可视化呈现,并将其他实验结果和重要经济数据也进行了可视化呈现。对企业报表进行合理的经济数据进行分析以及对企业报表中文本信息挖掘和提取,并最终将所得到的结果进行可视化呈现。这种将理论和实践相结合的方式,在进行学术研究的同时,也充分的利用了其研究的成果。对可视化的企业数据和文本信息进行参考,不仅对关心企业经营状况的投资者有着十分深远的意义,而且对企业自身的发展,产能结构调整等方面也都具有十分重要的意义。
其他文献
有关法语介词“de”的几种用法李锦华介词在法语中是属于没有词形变化的词类。它的基本功能是把句子中的某些成分和别的成分联系起来,并表明二者之间的关系。介词“de”是法语介词
期刊
目的通过对基体改进剂遴选和测定条件的优化研究,确定了石墨炉原子吸收法测定风味鱼制品中镉的最佳方法。方法采用石墨炉原子吸收法,以磷酸二氢铵-氯化钯混合溶液作为基体改进
选择合肥市区交通干道、城郊公路和森林公园作为具有不同交通流量的路段,通过火焰原子吸收法,测定土壤和小蜡叶片中的w(Cu),w(Zn),w(Pb),w(Cd)和w(Cr);运用统计方法研究土壤和小蜡叶片
【正】 “师生恋”是一个古老而又新鲜的、令人困惑的课题。人们大都倾向于非议、责难,但又不免寄予深深的同情;人们指责当事教师“思想作风不正派”,但他们又往往是富有才华
推进国防科技工业军民融合发展,是世界上多数国家的普遍做法,也符合国防科技工业的发展规律。我国国防科技工业目前在推行军民融合式发展,但效果并不理想。分析了我国国防科
现有的面形绝对检测法为了保证检测精度,在测量过程中需要耗费大量时间对被测镜进行精密的姿态调整。针对上述问题,提出了一种无需精密调整被测镜姿态的两平面面形检测方法。
本文首先阐述了城市人工地貌的概念,分述了城市人工地貌的造貌营力、城市人工地貌的分类系统,着重论述了大连城市人工地貌发育阶段、演变机制,分析了城市人工地貌发育的一般规律
本文通过对2×K表统计数据进行分析,当多个样本率总的比较X^2检验显著时,要作出多个样本率之间两两比较的统计推断时,应当使用调整的显著性水准或调整显著性界值^〔1,2,3〕。本文介绍三
在高校,师生之间存在双重关系的情况屡见不鲜。根据其类型,可划分为非性双重关系和性双重关系。高校师生的双重关系潜在着各种风险,包括学生更容易遭到剥削,教师更容易失去客
采用自行开发的碳氢燃料燃烧详细机理自动简化程序ReaxRed分别对包含257个物种和874步反应的RP-3航空煤油替代模型以及包含1389个物种和5935步反应的汽油混合替代模型进行机