基于预期偏差的突发金融文本分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huoqiyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着中国经济的发展,金融市场与人们的生活越来越息息相关。研究表明突发金融信息会迅速给金融市场带来强烈扰动影响,而随着互联网技术和社交网络的快速发展,这种影响会被大幅放大。通常,对于利好信息,股票价格呈快速上扬的趋势,对于利空信息,股票价格往往呈现下挫趋势。然而近来,证券市场在面对重要利好信息时,价格反而呈现出总体下挫的趋势,这对传统基于金融信息挖掘的方法带来较大冲击。传统文本分类方法在这种情况下并不能对金融新闻作出准确的分类。原因在于,传统的分类方法通常将研究重点放在分类模型本身上,把文本特征作为模型输入预测文本类标。针对这个问题,本文提出了基于预期偏差的金融文本分类方法。在提出预期偏差概念的基础上,通过主题模型对文本做主题匹配,然后通过描述性词典对新闻做预期偏差计算,最后得到基于预期偏差的分类模型对文本进行分类。本文主要研究工作及成果概况如下。首先,本文采用强扰动共振过滤及K-means文本聚类过滤的方法从大量新闻文本中抽取有效用的突发新闻,实现了新闻文本初筛过程。其次,针对常用文本分类方法分类效果较差的问题,本文提出了基于预期偏差的分类方法。通过分析LDA主题模型,提出了新闻文本主题之间匹配的概念。利用新闻文本主题聚类结果作为先验分布,预测新闻文本的主题并计算新闻文本主题之间的相似度。在主题相似的基础上,继而提出基于词典的新闻文本之间偏差程度的度量方法,度量新闻文本之间的偏差。最后,本文结合LDA新闻主题匹配以及新闻之间的偏差程度的度量两方面内容,构造分类模型,用于对新闻文本的分类。实验结果表明,在金融市场异常的情况下,通过本文提出的文本分类方法对新闻进行分类时,能够获得更准确的分类效果。
其他文献
自古以来,梅花作为坚贞、清高的象征,与文人之间有着不可分割的关系;而承载着文人美好希冀的园林,自然也无法缺少梅花的身影。文章从历史的脉络与现有园林的实际情况出发,探
<正>一、设计说明与准备"社会主义建设道路的初期探索"是人民版必修二专题七"苏联社会主义建设的经验与教训"的第一课。相关的课标要求是,了解俄国国内战争后苏维埃政权面临
<正> 在现代经济社会中,交通运输是确保正常的社会生产和流通以及人们社会经济生活的基本条件之一,是社会经济的动脉。公路是汽车运输所不可缺少的最基本的交通设施。不仅如
麻醉学专业型硕士研究生和住院医师规范化培训的联合培养,是我国医疗卫生人才培养的重要战略,同时也向从事临床教学工作的教师提出了更高的要求。对于麻醉专业的学生,石河子
<正>肺癌是全球最常见恶性肿瘤之一,其发病率与病死率在过去的几十年内迅速增长,迄今为止,肺癌的病死率已居恶性肿瘤之首[1]。肺癌分为小细胞癌和非小细胞肺癌(NSCLC),NSCLC
当前,随着我国劳动力成本上涨、人口红利逐渐消失,构建以智能制造为特征的新型制造体系迫在眉睫。2015年5月,国务院印发了《中国制造2025》,部署全面推进制造强国战略,明确要大力
报纸
本文论述了包头市放射性污染源现状、分布、三废排放、污染源治理、废物处置、处理及评价。查清了放射性同位素种类、数量、活度及存放情况。为今后管理工作提供了依据。
<正> 中华民族是一个具悠久历史和文化传统的民族。由文化凝聚积淀的园林景观,清幽中见画意,细腻中见诗情,平淡中见蕴藉,变化中见新奇,可谓异彩纷呈,琳琅满目。中国园林(主要
<正> 由中国社会科学院少数民族文学研究所理论室、文化部民族文化司社文处、中国作协创联部民族处联合主办的全国第一届少数民族文学理论研讨会于一九九一年八月十八日至二
改革开放40年来,我国教研员承担了教学研究、教学指导、考试组织、教师培训、教育决策服务、课程政策研究、校本课程领导等多种任务,但受专业制度缺失、行为习性固化、理论研