论文部分内容阅读
统计自然语言处理从上个世纪90年代作为自然语言处理的主流方法,具有重要的理论意义和广阔的应用前景。本文主要讨论了汉语分词的概率建模,词向量的维数确定和语义的量化定义,并且结合实际金融应用进行深入分析。 本文主要贡献有两点,一是我们针对自然语言处理中涉及的分词和维数确定问题,相对于机器学习研究领域一味追求算法的有效性,我们更侧重于从统计和概率的角度进行严格分析和建模,这部分包括第二章和第四章;二是我们采用大数据方法来做专业的金融分析,包括第三章和第五章。 具体来说,论文共分六章,其中第一章首先给出了经典金融研究方法和基于大数据研究方法的比较,接着介绍研究背景及意义,然后给出了相关内容的文献综述,最后介绍了文章的结构。 第二章我们从概率的角度出发解释了Jieba分词的数学原理,并且基于句子信息熵的密度图比较了两种分词模式的差异,发现其中模式二相比于模式一稳健性更好。在实验部分,我们设计了四种文本分类结构来说明不同分词模式对文本分类结果的影响。 第三章我们首次给出了统计自然语言处理在央行货币政策研究中的应用。我们采用两种方法对央行货币政策进行分析,一种是词频分析方法,另一种是关键词提取方法。在无货币政策的先验信息条件下,得到如下结论,在我国十几年的货币政策实施过程中,央行对于“通货膨胀”的关注度明显高于“通货紧缩”;通过统计有关通胀类词的出现个数,可以大致了解每年的通货膨胀严重程度;通过计算不同时期“货币政策”下其他词出现的条件概率,可以了解不同时期货币政策的变化;通过关键词提取结果,可以看出央行关注热点的变化。 第四章我们提出了Word2vec维数确定问题,并且利用主成分分析方法解决该问题。我们发现针对词向量的嵌入空间而言,其主成分数目随着维度的增加而稳定在一个数值附近,这类似于统计模型确定模型维数的方法如AIC准则和Cross-Validation方法。在将每个词映射到实向量空间的一个点之后,经过语义的简单代数运算,基于加法模型的语义组合空间其主成分数目也随着维度的增加而稳定在一个数值附近,并且这个数值比词向量空间确定的数值更大,这说明要刻画一个扩展语义组合的空间要比刻画词空间需要更多的特征。 第五章我们首先基于奇异值分解给出了词的特征向量表示,据此利用二分K均值算法对得到的金融词进行聚类,对于每一类我们赋予一到两个金融主题词。我们根据分布假说,考虑上下文出现的位置,提出了任意两个词的语义距离的数学定义,并且从语义角度解释了我们之前聚类结果的合理性。 最后一章给出了总结,并且对未来研究工作进行说明。