自然语言的量化建模及其基于量化语言方法的金融研究和应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：LITAO14073164

【摘要】

：

统计自然语言处理从上个世纪90年代作为自然语言处理的主流方法，具有重要的理论意义和广阔的应用前景。本文主要讨论了汉语分词的概率建模，词向量的维数确定和语义的量化定义，并

【作者】

：

孔希希

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2004年期

【关键词】

：

金融统计学自然语言处理汉语分词概率建模特征向量奇异值分解

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

统计自然语言处理从上个世纪90年代作为自然语言处理的主流方法，具有重要的理论意义和广阔的应用前景。本文主要讨论了汉语分词的概率建模，词向量的维数确定和语义的量化定义，并且结合实际金融应用进行深入分析。　　本文主要贡献有两点，一是我们针对自然语言处理中涉及的分词和维数确定问题，相对于机器学习研究领域一味追求算法的有效性，我们更侧重于从统计和概率的角度进行严格分析和建模，这部分包括第二章和第四章;二是我们采用大数据方法来做专业的金融分析，包括第三章和第五章。　　具体来说，论文共分六章，其中第一章首先给出了经典金融研究方法和基于大数据研究方法的比较，接着介绍研究背景及意义，然后给出了相关内容的文献综述，最后介绍了文章的结构。　　第二章我们从概率的角度出发解释了Jieba分词的数学原理，并且基于句子信息熵的密度图比较了两种分词模式的差异，发现其中模式二相比于模式一稳健性更好。在实验部分，我们设计了四种文本分类结构来说明不同分词模式对文本分类结果的影响。　　第三章我们首次给出了统计自然语言处理在央行货币政策研究中的应用。我们采用两种方法对央行货币政策进行分析，一种是词频分析方法，另一种是关键词提取方法。在无货币政策的先验信息条件下，得到如下结论，在我国十几年的货币政策实施过程中，央行对于“通货膨胀”的关注度明显高于“通货紧缩”;通过统计有关通胀类词的出现个数，可以大致了解每年的通货膨胀严重程度;通过计算不同时期“货币政策”下其他词出现的条件概率，可以了解不同时期货币政策的变化;通过关键词提取结果，可以看出央行关注热点的变化。　　第四章我们提出了Word2vec维数确定问题，并且利用主成分分析方法解决该问题。我们发现针对词向量的嵌入空间而言，其主成分数目随着维度的增加而稳定在一个数值附近，这类似于统计模型确定模型维数的方法如AIC准则和Cross-Validation方法。在将每个词映射到实向量空间的一个点之后，经过语义的简单代数运算，基于加法模型的语义组合空间其主成分数目也随着维度的增加而稳定在一个数值附近，并且这个数值比词向量空间确定的数值更大，这说明要刻画一个扩展语义组合的空间要比刻画词空间需要更多的特征。　　第五章我们首先基于奇异值分解给出了词的特征向量表示，据此利用二分K均值算法对得到的金融词进行聚类，对于每一类我们赋予一到两个金融主题词。我们根据分布假说，考虑上下文出现的位置，提出了任意两个词的语义距离的数学定义，并且从语义角度解释了我们之前聚类结果的合理性。　　最后一章给出了总结，并且对未来研究工作进行说明。

其他文献

论鲁迅小说《明天》中的“间离”手法

摘要：从布莱希特“间离化”理论出发，重新审视鲁迅短篇小说《明天》。与布莱希特要求观众采取社会批判的立场一致，《明天》中运用了穿插叙述者的评论干预、平行并立的空间形式、带有表演式的人物叙述等艺术手法造成了“间离化”审美效果，促使观众运用理智去进行思考和评判，进而获得对社会人生更深刻的认识。　　关键词：布莱希特；“间离化”；鲁迅；《明天》　　作者简介：黄一楠（1993-），女，湖南长沙人，四川大学文

期刊

布莱希特间离化鲁迅《明天》

基于公共支出理论框架下的政府直接资助与企业技术创新的关系研究

本文研究的问题是政府直接资助与科技型中小企业技术创新的关系，以及这种关系的变化趋势和影响因素。　　政府财政资助企业技术创新活动一直受到国内外学者的广泛关注。政策

学位

科技型中

科学亚特兰大中标山西有线数字电视项目

期刊

科学亚特兰大中标山西

方正携广电解决方案为全国城市台年会添彩

期刊

方正广电解决方案城市