结合文本倾向性分析的股评可信度计算研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:simple69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和金融服务行业的联系日益密切,人们对于快速、准确获取金融信息的需求越来越迫切。但大量不可信信息的存在给投资决策带来了巨大的挑战。如何在庞大的数据中找到可信的信息成为了金融信息服务领域的关键性问题。针对股票投资这个特定领域的金融信息服务需求,本文研究结合文本倾向性分析的股评文本可信度计算方法。本文的主要工作包括:第一、在对股评文本和股票领域文本特点进行分析的基础上,研究面向股评文本的倾向性分析方法。着重研究三种特征选择方法,包括:基于Uni-Gram/Bi-gram过滤的特征选择方法、基于自动发现领域词典的特征选择方法以及基于文章结构的特征选择方法,实验显示当三种特征同时使用时,系统的性能最优。第二、由于中国股市没有做空机制,导致股评文本中正面股评的数量远远大于负面股评。股评类别分布的不平衡明显影响了基于有监督学习的分类器性能。为此,研究了面向不平衡股评数据的倾向性分析。这里分别研究了基于过采样和基于集成学习的不平衡分类处理方法。实验结果显示基于过采样的方法对系统性能的提升有限,而基于集成学习的方法明显提高了少类样本分类性能。第三、利用带有分类标注的股评和股评发布后实际股价变化的一致性分别评估发布者的历史可信度和行业可信度。第四、结合股评文本倾向性分析和信息发布者的可信度评估实现了股评可信度计算和股价预测系统。实验显示本文实现系统的预测性能优于主流股评机构。本文的主要贡献在于:第一、基于短股评文本建立了股评相关的领域词典。在对股评文本的特点深入观察分析的基础上,提出了多种有效特征用于股评倾向性分析。第二、对股评数据的特点进行了深入分析,并设计实现了两种面向不平衡训练数据的倾向性分类方法。实验结果显示,基于集成学习的方法有效提高了少类样本的分类性能。第三、设计实现了结合股评文本倾向性分析、股评发布者历史可信度和行业可信度的股评可信度计算方法。
其他文献
采用自编网络问卷,以江西崇仁师范学校附属小学和崇仁第二中学共445名学生作为研究对象,研究家庭因素对中小学生学业成绩的影响,结果表明,家庭组成、父母受教育程度、教养方
从社会环境变化、教育制度改革、办学模式创新以及现行安全教育模式等四个方面探讨新形势下加强中职安全文化建设的必要性,并提出相关建设措施。
阐述了任务型教学与过程性评价的意义,探讨任务型教学过程中教师对学生进行过程性评价的方式与实施方法。
品德与生活课程是以儿童的生活为基础,以培养品德良好、乐于探究、热爱生活的儿童为目标的活动型综合课程。让孩子们在活动中都动起来,让他们在与教师互动、与同学交流中,在
分析高职物流管理专业学生核心能力培养的意义,认为高职物流管理专业学生核心能力的培养关系着学生的培养质量,提出物流管理专业学生的核心能力培养应从专业核心能力、职业核
仔细地对近年来高考物理试题进行研究,并提出高考物理复习的策略,讲解解答物理题的四个步骤。
建国以来,特别是十一届三中全会后,我国高等教育事业有了前所未有的发展,高等教育在经济发展中的重要作用也越来越多的得到人们的肯定,但是随着社会主义市场经济的发展,高等
根据契约理论,会计准则本质上是政府与企业以会计政策和方法为内容制定的契约。然而,在经济发展的过程中,由于市场经济环境的不稳定性、经济业务内容的复杂多样性,使得契约具
矿井排水系统承担着煤矿主要的涌水排出任务。目前,我国大多数矿井排水系统仍采用人工监测、继电器控制的方法,而由继电器控制的矿井排水系统可靠性不高、应急能力较差,存在
本论文以重庆四面山6种森林植物群落为研究对象,通过野外调查试验和室内实验,采用统计方法、灰色关联法、分形理论、层次分析法、模糊数学方法和逼近理想点决策原理等方法,从