论文部分内容阅读
经过多年的发展,证券行业积累大量的结构化和非结构化数据。证券行业大数据在给市场参与者提供更加丰富和全面的信息的同时,也带来大数据分析和处理的新挑战。传统的依靠人对海量数据阅读分析并做出投资决策的模式在大数据时代已经变得不再现实。将机器智能分析逐渐代替人工分析已经成为行业未来发展的一大趋势。文本的表示是智能分析的关键步骤,前人的研究通过设计特征模板,从原始数据中提取特征表示作为机器学习算法的输入。这类特征模板的设计需要人工参与,费时费力,且常常需要领域专家的知识。同时,对于较复杂的应用,特征的维度可能非常高(高达千万维)且稀疏,且这些特征往往只能运用于特定的领域,无法很好地在不同应用和语言中进行迁移。证券市场行情的变化高度复杂,需要对信息的深度理解。基于深度神经网络的文本表示学习相对于基于离散特征的模型能够更好地表示文本语义,且具有强大的非线性拟合能力,能够更好地刻画特征与学习目标之间的联系。如何将其运用于证券市场行情预测是一个非常值得深入研究和探索的课题。然而相关工作才刚刚起步,还存在预测模型建立在浅层的文本理解基础上、没有有效融合知识、模型的可解释性不足等问题。针对以上问题,我们提出了本文的研究点:市场行情预测中融合知识的事件表示学习:针对现有的事件驱动的预测模型主要是基于单一事件,没有有效地利用背景知识和上下文知识的问题。本文提出了基于融合知识图谱的事件表示和融合上下文知识的事件表示的市场行情预测模型,以更好地表示事件隐含的语义信息。在三个不同市场行情预测任务中的实验结果表明,相对于离散事件表示和不依赖于外部知识的事件表示,融合知识图谱和上下文知识模型在这三个任务中都取得了非常显著的提升。市场行情预测中目标依赖的关键句子表示学习:针对基于事件的模型需要依赖于事件抽取工具,而现有句子表示模型无法有效捕获远距离依赖的问题。本文提出了一个基于树结构网络的目标依赖的句子表示模型,对篇章的摘要进行表示学习。整个模型基于编码器-解码器结构,通过强化学习探索可能的二叉树结构,对能够提高预测结果的结构进行奖励,从而获得更好的目标依赖的句子表示。在基于新闻摘要的累积超额收益预测任务上的实验结果表明,相对于其它基线方法,模型能够取得了更好的预测效果。此外,模型生成的树结构能够帮助理解句子的语义是如何根据特定的目标进行组合的。市场行情预测中目标依赖的篇章表示学习:针对已有篇章表示模型无法针对特定目标建模的问题,本文提出了一个目标依赖的篇章表示框架。该框架的主要思想是使用目标依赖的新闻摘要的表示来衡量新闻中句子的重要性,从而选择和组合最有意义的句子来进行建模。在基于新闻文档的累积超额收益预测任务上,本文的框架给出了目前最好的表现;同时,当结合来自多个新闻文档的信息时,本文提出的方法相对于句子级基线方法的优势更加明显。基于文本表示学习的可解释市场行情预测:针对现有的文本驱动的预测模型可解释性不足的问题。本文提出一个只依赖于文档级(任务级)标签训练的可解释的预测框架。该框架能够在给出预测结果的同时从篇章中抽取关键句子为预测提供解释。在两个不同任务的实验结果表明,本文的方法优于无监督的抽取方法和已有的文档表示模型。同时,模型抽取的结果与人类标注的标准答案高度一致。总之,针对当前文本表示学习在证券市场行情预测中存在的问题,本文致力于两方面的研究,一方面是基于不同粒度的文本(事件级,句子级和篇章级)的表示学习的预测模型,以更好地对不同粒度的文本信息建模。另一方面,本文也研究了构建于文本表示学习模型基础之上的预测模型的可解释性。虽然本文的模型主要针对的是证券市场预测问题,但是本课题提出的基于文本表示的方法是通用的,也将能够被运用于其它文本驱动的预测任务中。