自然语言的量化建模及其基于量化语言方法的金融研究和应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:LITAO14073164
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计自然语言处理从上个世纪90年代作为自然语言处理的主流方法,具有重要的理论意义和广阔的应用前景。本文主要讨论了汉语分词的概率建模,词向量的维数确定和语义的量化定义,并且结合实际金融应用进行深入分析。  本文主要贡献有两点,一是我们针对自然语言处理中涉及的分词和维数确定问题,相对于机器学习研究领域一味追求算法的有效性,我们更侧重于从统计和概率的角度进行严格分析和建模,这部分包括第二章和第四章;二是我们采用大数据方法来做专业的金融分析,包括第三章和第五章。  具体来说,论文共分六章,其中第一章首先给出了经典金融研究方法和基于大数据研究方法的比较,接着介绍研究背景及意义,然后给出了相关内容的文献综述,最后介绍了文章的结构。  第二章我们从概率的角度出发解释了Jieba分词的数学原理,并且基于句子信息熵的密度图比较了两种分词模式的差异,发现其中模式二相比于模式一稳健性更好。在实验部分,我们设计了四种文本分类结构来说明不同分词模式对文本分类结果的影响。  第三章我们首次给出了统计自然语言处理在央行货币政策研究中的应用。我们采用两种方法对央行货币政策进行分析,一种是词频分析方法,另一种是关键词提取方法。在无货币政策的先验信息条件下,得到如下结论,在我国十几年的货币政策实施过程中,央行对于“通货膨胀”的关注度明显高于“通货紧缩”;通过统计有关通胀类词的出现个数,可以大致了解每年的通货膨胀严重程度;通过计算不同时期“货币政策”下其他词出现的条件概率,可以了解不同时期货币政策的变化;通过关键词提取结果,可以看出央行关注热点的变化。  第四章我们提出了Word2vec维数确定问题,并且利用主成分分析方法解决该问题。我们发现针对词向量的嵌入空间而言,其主成分数目随着维度的增加而稳定在一个数值附近,这类似于统计模型确定模型维数的方法如AIC准则和Cross-Validation方法。在将每个词映射到实向量空间的一个点之后,经过语义的简单代数运算,基于加法模型的语义组合空间其主成分数目也随着维度的增加而稳定在一个数值附近,并且这个数值比词向量空间确定的数值更大,这说明要刻画一个扩展语义组合的空间要比刻画词空间需要更多的特征。  第五章我们首先基于奇异值分解给出了词的特征向量表示,据此利用二分K均值算法对得到的金融词进行聚类,对于每一类我们赋予一到两个金融主题词。我们根据分布假说,考虑上下文出现的位置,提出了任意两个词的语义距离的数学定义,并且从语义角度解释了我们之前聚类结果的合理性。  最后一章给出了总结,并且对未来研究工作进行说明。
其他文献
摘 要:从布莱希特“间离化”理论出发,重新审视鲁迅短篇小说《明天》。与布莱希特要求观众采取社会批判的立场一致,《明天》中运用了穿插叙述者的评论干预、平行并立的空间形式、带有表演式的人物叙述等艺术手法造成了“间离化”审美效果,促使观众运用理智去进行思考和评判,进而获得对社会人生更深刻的认识。  关键词:布莱希特;“间离化”;鲁迅;《明天》  作者简介:黄一楠(1993-),女,湖南长沙人,四川大学文
本文研究的问题是政府直接资助与科技型中小企业技术创新的关系,以及这种关系的变化趋势和影响因素。   政府财政资助企业技术创新活动一直受到国内外学者的广泛关注。政策
学位
由岩石引起的地震波粘弹性响应取决于孔隙流体相对于固相运动。流体运动多半与内部波动引起的孔隙压力分布有关,而这种孔隙压力分布又取决于岩石孔隙的微观结构以及饱和度大
很多研究都是关注鲁迅《故乡》中的思想,情感,但为了更加全面地认识鲁迅的《故乡》,我们要在反常规的进行文本细读,《故乡》中的故乡其实是多重的,它是现实故乡,过去的故乡,