论文部分内容阅读
企业舆情分析的目标是为用户提供企业在文本集合中的情感信息,了解目标企业在法律风险,新闻情感优劣,企业详情等方面的信息,从而使得用户可以准确掌握目标企业的画像。鉴于此,本文主要对企业舆情场景中的企业情感分析任务、新闻主题分类任务、企业信息抽取任务、开庭信息抽取任务进行研究,同时结合文本匹配技术,实现了各任务的应用过程。本文在企业情感分析技术研究的描述中,构建了一种多元融合神经网络模型(TFRCNN),它可以通过学习相应长度的句子语义信息,从而更好的解析文本中的企业情感倾向。模型中设计了一种采用特征融合提取和模型深度融合的结构。其中,特征融合提取结构使用注意力编码器和残差融合网络进行数据学习,通过多种特征融合的方式达到可以深入解析句子结构的目的;模型深度融合结构则通过构建3层RNN、CNN组合单元,从而提升了短句解析效果,最终提高了企业情感分析的准确度。本文在不同的情感分析数据集上的实验表明,该模型相比于结合注意力机制的卷积神经网络(CNN)和长短期记忆(LSTM)等模型而言,具有更好的效果。此外,本文还将TFRCNN模型应用于短文本文本匹配任务、实体信息抽取任务,实验表明此模型相对于对照组模型均具有较好效果。最后,本文在TFRCNN模型基础上,构建了企业舆情分析系统与数据审核标注系统。具体工作如下:1、针对企业舆情系统中新闻主题分类与企业情感分析数据短缺的情况,本文提出了一种结合数据自动标注流程的数据扩增方法。并在此基础上,开发了数据审核标注系统。此系统可以供多人在线审核标注数据,纠正自动标注错误的数据。利用此方法处理后,最终在企业舆情分析场景中获得了较高质量的新闻主题分类与情感分析数据集。在拥有了良好的数据集的基础上,本文系统确定了舆情分析场景下,各算法任务中的最优模型。2、详细阐述了两个系统的需求分析、系统设计、系统核心功能和业务逻辑。其中,企业舆情系统主要包含了目标企业信息检索与查询、新闻检索、企业情感信息查询、新闻主题类别和热度指数查询、新闻类别与来源数据可视化、开庭公告文件上传、开庭公告解析结果展示等模块,从而具备了企业舆情分析相关功能;数据审核标注系统主要包含数据自动标注、新闻主题分类数据审核、情感分析数据审核模块,从而具备了数据审核与校验的功能。最后,本文中两个系统利用Flask技术和mysql数据库实现了各业务模块。