论文部分内容阅读
受有效市场假说的影响,证券行业不断重视对互联网文本数据的研究。但随着互联网技术的发展,尤其是近年来涌现出各种社交网络平台,互联网上的文本数据发生很大变化,开始出现大量带有感情色彩的主观性信息。这些主观性信息的内容涉及社会生活中的各种热点话题,因此在证券行业拥有巨大的应用空间。然而,主观性信息在文本中的表现形式与客观性信息不同,一般比客观性信息更加复杂,因此利用传统的文本挖掘方法已经无法解决这类信息的挖掘问题。在这种背景下,以挖掘文本中主观性情感信息为研究目标的观点挖掘技术应运而生。互联网观点挖掘研究不仅具有巨大的学术价值,其挖掘结果还能帮助解决许多行业的应用需求,因此该领域的研究不仅受到学术界的广泛关注,还吸引了众多行业的注意。其中,在证券行业就出现利用社交网络情感信息预测股市波动的应用案例。相对之前的方法,这些基于观点挖掘的应用取得了一定的成效,但总体来看,其应用效果仍无法令人满意。这是因为目前的观点挖掘研究仅注重对观点信息的挖掘,忽视了观点与主题内容的联系,然而证券行业对信息的需求,不仅包括互联网上的观点信息,还同时希望把握其中蕴含的主题。因此,现有的观点挖掘方法也难以很好的满足证券行业对信息的需求。针对这一问题,本文提出了一种面向Web文本主题的观点挖掘研究,简称主题观点挖掘研究。围绕这一研究,我们分别对主题观点挖掘、主题观点量化、主题观点集成,以及主题观点分类等若干关键问题展开深入分析,并提出相应的解决的方法。此外,为了验证本文方法的有效性,我们不仅在实验中验证了本文方法解决现有观点挖掘任务的能力,还专门将挖掘模型应用到的股市波动预测应用中。实验结果不仅证明了本文方法的有效性,还发现了许多有意思的结论。总体来看,本文研究工作有如下几个方面的创新:1.针对现有方法在挖掘观点信息时忽略了主题信息这一不足,本文首先提出一种文档主题观点挖掘模型(Document-Topic-Opinion,简称DTO模型)。该模型在标准LDA模型关于文档(Document)、主题(Topic)和词汇(Word)的三层结构基础上,进一步引入观点(Opinion)的概念,是一种四层贝叶斯概率生成模型。从机器学习的角度看,DTO模型是一种非监督的学习模型。由于DTO模型中未知参数间存在耦合关系,无法通过形式化推理求解模型的未知参数,本文提出采用MCMC Gibbsi油样的方法实现对未知参数的近似估计。实验结果表明,DTO模型具有较强的主题和观点挖掘能力,利用该模型不仅可以取得较高的文档观点分类准确率,还能挖掘出带有情感倾向性的主题内容。2.针对现有观点量化方法的不足,本文在DTO模型基础上,首先提出主题观点分布的假设,假设文本的观点信息是在多个隐含主题上的多项分布。依据这一概率假设,本文进一步提出了主题观点的量化表达模型,即文档主题观点向量模型(Document-Topic-Opinion Vector,简称DTOV模型)。利用DTO模型,可以将文档观点(Article Opinion)与文档主题观点关联起来,最终实现对DTOV模型的量化计算。以DTOV为分类特征的情感分类实验结果表明,DTOV具有较好的主题观点量化能力。3.针对现有观点集成方法的不足,本文首次提出一种基于文档权重(Article-Weight)和主题权重(Topic-Weight)的主题观点集成模型(Topic-Opinion Vec-tor Aggregation Model,简称TOVA模型)。该模型通过集成文档集合中所有文档的主题观点,为整个文档集生成一个主题观点集成向量(Aggregative Topic-Opinion Vector,简称ATOV)。利用TOVA模型,可以同时挖掘出互联网上多个热点话题的舆情信息,具有较高的应用价值。为了验证观点集成模型的有效性,本文利用DTO模型对中国最大的互联网门户网站新浪财经每日发布的股票相关文本信息进行主题观点挖掘,为每篇互联网财经文档生成一个对应的DTOV,然后再利用TOVA模型整合每天所有的DTOV,最终得到每天的主题观点集成向量ATOV。ATOV可以看作是每日互联网上围绕热点主题的观点信息,为了进一步验证其对股市波动的预测能力,我们将每日生成的ATOV作为特征数据,利用文本分类方法对上证综指隔日波动方向进行预测。实验结果验证了ATOV对股市波动的预测能力,同时也反映出TOVA模型较强的观点整合能力。4.针对现有方法对文本多分类模型研究的不足,本文在正则化理论和模糊集理论的基础上,首次提出了一种多数据域描述(Multiple Data Domain Description Model,简称MDDD模型)的文本多分类方法。MDDD模型本质上是一种多任务学习算法,该模型继承了多任务学习方法的优势,在建立训练模型时,能整体考虑各个分类的相互关联,因此克服了单任务集成分类模型这方面的不足。为了验证方法的有效性,我们将该模型分别应用到文档多分类,及序列数据多分类问题中,以此为基础的上证综指隔日趋势波动预测和文本多分类的实验结果很好的证明了MDDD模型的有效性。