论文部分内容阅读
随着互联网技术的兴起与进步,社交媒体对人们的生活产生了越来越深刻的影响。在国内外以往的研究中,已经有很多文献表明社交媒体中的潜在信息与一系列社会、经济指标比如票房收入、选举行情、疾病传播、股市指数等存在关联。 然而,来自于社交媒体的数据具有典型的高维数据的特征,其中有价值信息和无价值信息交互冗杂,其巨量、复杂的数据特点让人们无法通过简单的统计分析在合理的时间内做到摘取、管理、处理并整理成对大众有用的直观信息。于是,数据挖掘技术与高维数据(大数据)分析技术迅速发展起来。然而,以往的研究多是对于数据的本身内容的挖掘和分析,比较少涉及1)通过数学模型对高维数据进行有效信息的筛选;2)利用一致的数学模型探索高维数据的潜在信息和社会、经济指标之间的内在关系。基于此,在社交媒体快速发展的背景下,论文研究并开发分析高维时间序列数据的传统经济计量学模型和大数据场景下的社交媒体与经济、社会指标的关系模型,并结合实证分析分别验证本文所构建的模型的可用性及有效性。 论文中所涉及的高维时间序列数据来自于社交媒体,主要包括社交媒体网站和搜索引擎等。人们从社交媒体中获得时间序列数据时,具体情况往往比较复杂。当所获得的数据具有高相关性、同质性的特点时,可以基于传统方法进行建模来对数据进行分析。然而,当所获得的数据维度较高、异质性、复杂程度很高时,一般地,通过现有的传统统计学方法很难达到有效处理的目标。针对这种情况,论文构建一种大数据场景下的社交媒体与经济指标的关系模型,利用计算机模拟技术来达到数据处理的目标。论文的创新性工作工作主要体现在三个方面:1.构建了大数据场景下社交媒体高维数据和经济、社会指标之间关系的模型和算法,拓展了高维数据建模的技术方法。2.基于大数据获得的高维解释变量,把状态空间模型、逐步回归模型和MCMC算法相结合,开发了针对中国消费信心指数的新算法,并提出了具体步骤,丰富了大数据场景下的建模和求解过程。3.将社交媒体中的大众行为信息引入到消费信心指数等经济、社会指标的分析和预测中来。通过对社交媒体中高维数据的挖掘,有利于更加客观和全面地测算我国的经济、社会发展指数。 一系列有价值的结论能够从本研究中获得,主要包括: 1)论文中基于传统技术与方法构建的模型能够对具有较高相关性的同质高维数据进行分析和处理,比如可以利用主成分分析(PCA)的方法对具有较高相关性的变量进行降维。但是能利用这种方法来处理的高维数据是有限的,一方面,在社交媒体背景下获得的数据同时保证其同质性和高相关性本身就是比较苛刻的条件;另一方面,即使能够保证该条件,现有的方法也不能处理过高维度的数据,比如当解释变量的数据维度高达几千甚至几万,而观察变量的长度仅仅有几十个的时候。 2)论文接下来构建的大数据场景下的社交媒体与经济、社会指标的关系模型在一定程度上解决了上面的难题。通过该模型,人们可以获得经济、社会指标和社交媒体潜在信息之间的内在关联关系。研究还发现,基于该模型,传统调查问卷的信息采集方法可以在一定程度上被网络数据挖掘的方法代替,与传统调查问卷相比较,网络数据挖掘能够在更加客观并经济的条件下获得更加真实有效的信息。 3)结合中国消费者信心指数,论文演示了大数据场景下的社交媒体与经济、社会指标的关系模型的具体应用方法和求解步骤,研究结果表明:大众在社交媒体中的行为变化暗示了消费者信心的变化;中国的消费者信心随着时间具有缓慢下降的趋势,表明了人们随着时间的推移(知识的增加、科技进步等)会表现出更多的对于中国经济运行的担忧情绪;中国消费者信心具有明显的季节性波动,人们总会在一年的某些月份(春节后的月份)更有信心而在一年的某些月份(临近春节的月份)更缺乏信心。