论文部分内容阅读
随着互联网和金融服务行业的联系日益密切,人们对于快速、准确获取金融信息的需求越来越迫切。但大量不可信信息的存在给投资决策带来了巨大的挑战。如何在庞大的数据中找到可信的信息成为了金融信息服务领域的关键性问题。针对股票投资这个特定领域的金融信息服务需求,本文研究结合文本倾向性分析的股评文本可信度计算方法。本文的主要工作包括:第一、在对股评文本和股票领域文本特点进行分析的基础上,研究面向股评文本的倾向性分析方法。着重研究三种特征选择方法,包括:基于Uni-Gram/Bi-gram过滤的特征选择方法、基于自动发现领域词典的特征选择方法以及基于文章结构的特征选择方法,实验显示当三种特征同时使用时,系统的性能最优。第二、由于中国股市没有做空机制,导致股评文本中正面股评的数量远远大于负面股评。股评类别分布的不平衡明显影响了基于有监督学习的分类器性能。为此,研究了面向不平衡股评数据的倾向性分析。这里分别研究了基于过采样和基于集成学习的不平衡分类处理方法。实验结果显示基于过采样的方法对系统性能的提升有限,而基于集成学习的方法明显提高了少类样本分类性能。第三、利用带有分类标注的股评和股评发布后实际股价变化的一致性分别评估发布者的历史可信度和行业可信度。第四、结合股评文本倾向性分析和信息发布者的可信度评估实现了股评可信度计算和股价预测系统。实验显示本文实现系统的预测性能优于主流股评机构。本文的主要贡献在于:第一、基于短股评文本建立了股评相关的领域词典。在对股评文本的特点深入观察分析的基础上,提出了多种有效特征用于股评倾向性分析。第二、对股评数据的特点进行了深入分析,并设计实现了两种面向不平衡训练数据的倾向性分类方法。实验结果显示,基于集成学习的方法有效提高了少类样本的分类性能。第三、设计实现了结合股评文本倾向性分析、股评发布者历史可信度和行业可信度的股评可信度计算方法。