面向证券应用的WEB主题观点挖掘若干关键问题研究

来源 :复旦大学 | 被引量 : 3次 | 上传用户:wo402179168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
受有效市场假说的影响,证券行业不断重视对互联网文本数据的研究。但随着互联网技术的发展,尤其是近年来涌现出各种社交网络平台,互联网上的文本数据发生很大变化,开始出现大量带有感情色彩的主观性信息。这些主观性信息的内容涉及社会生活中的各种热点话题,因此在证券行业拥有巨大的应用空间。然而,主观性信息在文本中的表现形式与客观性信息不同,一般比客观性信息更加复杂,因此利用传统的文本挖掘方法已经无法解决这类信息的挖掘问题。在这种背景下,以挖掘文本中主观性情感信息为研究目标的观点挖掘技术应运而生。互联网观点挖掘研究不仅具有巨大的学术价值,其挖掘结果还能帮助解决许多行业的应用需求,因此该领域的研究不仅受到学术界的广泛关注,还吸引了众多行业的注意。其中,在证券行业就出现利用社交网络情感信息预测股市波动的应用案例。相对之前的方法,这些基于观点挖掘的应用取得了一定的成效,但总体来看,其应用效果仍无法令人满意。这是因为目前的观点挖掘研究仅注重对观点信息的挖掘,忽视了观点与主题内容的联系,然而证券行业对信息的需求,不仅包括互联网上的观点信息,还同时希望把握其中蕴含的主题。因此,现有的观点挖掘方法也难以很好的满足证券行业对信息的需求。针对这一问题,本文提出了一种面向Web文本主题的观点挖掘研究,简称主题观点挖掘研究。围绕这一研究,我们分别对主题观点挖掘、主题观点量化、主题观点集成,以及主题观点分类等若干关键问题展开深入分析,并提出相应的解决的方法。此外,为了验证本文方法的有效性,我们不仅在实验中验证了本文方法解决现有观点挖掘任务的能力,还专门将挖掘模型应用到的股市波动预测应用中。实验结果不仅证明了本文方法的有效性,还发现了许多有意思的结论。总体来看,本文研究工作有如下几个方面的创新:1.针对现有方法在挖掘观点信息时忽略了主题信息这一不足,本文首先提出一种文档主题观点挖掘模型(Document-Topic-Opinion,简称DTO模型)。该模型在标准LDA模型关于文档(Document)、主题(Topic)和词汇(Word)的三层结构基础上,进一步引入观点(Opinion)的概念,是一种四层贝叶斯概率生成模型。从机器学习的角度看,DTO模型是一种非监督的学习模型。由于DTO模型中未知参数间存在耦合关系,无法通过形式化推理求解模型的未知参数,本文提出采用MCMC Gibbsi油样的方法实现对未知参数的近似估计。实验结果表明,DTO模型具有较强的主题和观点挖掘能力,利用该模型不仅可以取得较高的文档观点分类准确率,还能挖掘出带有情感倾向性的主题内容。2.针对现有观点量化方法的不足,本文在DTO模型基础上,首先提出主题观点分布的假设,假设文本的观点信息是在多个隐含主题上的多项分布。依据这一概率假设,本文进一步提出了主题观点的量化表达模型,即文档主题观点向量模型(Document-Topic-Opinion Vector,简称DTOV模型)。利用DTO模型,可以将文档观点(Article Opinion)与文档主题观点关联起来,最终实现对DTOV模型的量化计算。以DTOV为分类特征的情感分类实验结果表明,DTOV具有较好的主题观点量化能力。3.针对现有观点集成方法的不足,本文首次提出一种基于文档权重(Article-Weight)和主题权重(Topic-Weight)的主题观点集成模型(Topic-Opinion Vec-tor Aggregation Model,简称TOVA模型)。该模型通过集成文档集合中所有文档的主题观点,为整个文档集生成一个主题观点集成向量(Aggregative Topic-Opinion Vector,简称ATOV)。利用TOVA模型,可以同时挖掘出互联网上多个热点话题的舆情信息,具有较高的应用价值。为了验证观点集成模型的有效性,本文利用DTO模型对中国最大的互联网门户网站新浪财经每日发布的股票相关文本信息进行主题观点挖掘,为每篇互联网财经文档生成一个对应的DTOV,然后再利用TOVA模型整合每天所有的DTOV,最终得到每天的主题观点集成向量ATOV。ATOV可以看作是每日互联网上围绕热点主题的观点信息,为了进一步验证其对股市波动的预测能力,我们将每日生成的ATOV作为特征数据,利用文本分类方法对上证综指隔日波动方向进行预测。实验结果验证了ATOV对股市波动的预测能力,同时也反映出TOVA模型较强的观点整合能力。4.针对现有方法对文本多分类模型研究的不足,本文在正则化理论和模糊集理论的基础上,首次提出了一种多数据域描述(Multiple Data Domain Description Model,简称MDDD模型)的文本多分类方法。MDDD模型本质上是一种多任务学习算法,该模型继承了多任务学习方法的优势,在建立训练模型时,能整体考虑各个分类的相互关联,因此克服了单任务集成分类模型这方面的不足。为了验证方法的有效性,我们将该模型分别应用到文档多分类,及序列数据多分类问题中,以此为基础的上证综指隔日趋势波动预测和文本多分类的实验结果很好的证明了MDDD模型的有效性。
其他文献
<正>习近平总书记在庆祝改革开放40周年大会上的重要讲话,深刻总结了改革开放40年来党和国家事业取得的伟大成就和宝贵经验。其中第一个方面成就和经验就是":40年来,我们始终
企业效能监察是提高企业效能的综合性管理监控工作。对效能监察重点项目跟踪监督进行研究,查找跟踪监督中存在的问题和不足,制定解决问题的对策,这不但丰富和完善了效能监察重点
本论文包括两方面的研究内容:第一部分是对一株筛自重金属污染区的重金属抗性细菌TS3进行多相分类学的研究及鉴定;第二部分是土壤锰抗性菌的筛选及其锰氧化性的初步鉴定。TS3菌
第一部分海洛因成瘾者脑多巴胺转运体991Tc-TRODAT-lSPECT显像研究[目的]应用99mTc-TRODAT-1SPECT显像技术,比较海洛因依赖者与正常志愿者纹状体内多巴胺转运体水平[方法]招
目的探讨采用小切口手术方式治疗阑尾炎的临床效果分析。方法本组选择68例为研究对象,随机分成对照组和实验组,每组34例,对照组行传统阑尾切除术治疗,实验组接受小切口阑尾炎
金融是现代经济的核心。金融对实体经济发展的有效支持离不开其自身拥有完善的多层次体系,而没有成熟发达的场外交易市场的资本市场就是空中楼阁。如今,主要资本市场发达国家
<正>当年我们那辈人,有几个会对中共党史感兴趣啊?谁不知道朱德的扁担变成林彪的扁担的故事,那种历史谁敢去学,弄得不好稀里糊涂就会犯政治错误人生故事杨奎松是当代著名的历
目的:运用患者主观全面评定法(PG-SGA)对常见恶性肿瘤营养状态进行调查,描述常见恶性肿瘤营养不良的发生率、入院前1周接受营养支持的情况,探讨不同年龄层次及肿瘤临床分期与营养
对正处在职业化转型过程中的某成人学校教师展开调查,对其职业化的信念以及职业化课堂教学设计的课程架构、课程目标、课程内容、课程实施、课程评价等5个环节进行定量与定性
2011年7月26日,国际会计准则理事会(IASB)新兴经济体工作组在北京正式成立并举行了第一次全体大会,刚刚履新的IASB主席汉斯&#183;胡格沃斯特参加了会议,并对IASB优先考虑的项目进