论文部分内容阅读
传统的金融学理论是在股民满足理性假设的基础上提出的,此理论只适用于比较成熟的股票市场,要求股民可以理智地对股票市场进行判断,对于所得到的市场信息可以进行正确地解读。很显然对于尚不成熟的中国股市而言,这种要求有些苛刻。中国股市现在仍处于不断发展的阶段,而且还会呈现暴涨暴跌的状况,行为金融学家对此进行了相关研究。研究结果表明,股票市场中非理性股民的投资行为会对股票涨跌造成一定的影响,股民投资情绪是否高涨也和股市有着密切的关系,所以分析股民的情绪变化对于最终分析股票的涨跌情况,有着至关重要的作用。在如今互联网时代,大部分股民可以在网上进行交流和获取信息。股吧就是一个股票交流平台,参与对象主要是股民,股民通过股吧可以分享投资经验、表达自我观点,同时也为分析股民当下的情感倾向提供了平台。本文以股吧(东方财富网股吧)评论文本作为研究对象,对其进行情感倾向分类研究。首先通过Scrapy爬虫技术抓取股吧评论的文本,进行文本筛选以及词汇过滤,而后应用提出的基于LSA和PageRank的同义词识别算法,对文本进行同义词替换,最终在支撑向量机(Support Vector Machine,SVM)的基础上,利用提出的MSK字符串核对股吧文本进行情感分类,通过实验验证,MSK字符串核的文本分类效果优于传统字符串核函数和常用核函数。本文的主要研究内容如下:1.提出了基于LSA和PageRank的同义词识别算法。该算法将LSA和PageRank两个算法相结合,既保留了LSA中语义挖掘的优点,又利用PageRank算法对文中的语句结构信息进行了整合,最终通过实验结果分析,发现将二者进行结合可以有效地提高同义词识别的效率。2.提出了MSK字符串核函数。首先在字符串的基础上提出了子序列权重的算法,它由子序列紧密度和子序列重要度组成。在利用字符串核函数对文本进行情感分类时,在子序列权重基础上,通过改进传统字符串核函数的核值计算公式,得到MSK字符串核函数。通过实验结果验证,MSK核函数的文本分类效果优于传统字符串核函数和常用核函数。