论文部分内容阅读
近年来,互联网发展迅速,应用规模迅速扩大,互联网的应用经历了从量变到质变的过程。作为互联网的基础应用,搜索引擎和网络新闻的使用率迅速增长。搜索引擎的使用改变了网民信息搜寻的方式,扩展了信息搜索渠道,并将网民在线搜索的足迹记录下来,形成的在线数据为社会经济和网民行为的分析建模和预测提供了众多机遇。 自Ginsberg et al.(2009)开拓性地利用谷歌搜索数据预测美国流感疫情,引爆了学术界对于大数据在社会经济预测中的应用分析。然而Butler D.则发现GoogleFlu Trends在过去几年中对流感存在过度预测的问题,这种过度预测成为美国2013年1月流感疫苗短缺的罪魁祸首,并把这种过度预测和预测不足的现象称为“大数据傲慢”,引发了针对大数据预测能力的质疑和大数据“测不准”现象的激烈讨论。学者们开始对于大数据“测不准”现象背后的形成机制进行分析,认为主要由两个原因导致:(1)个体对预测结果的因应行为干扰;(2)预测期内噪声的干扰。 因此本文从网络搜索数据中的噪声问题出发,对搜索数据中噪声的形成机制、噪声导致的网络搜索数据“测不准”理论框架进行分析。并且针对噪声的不同类别,提出了一个较为系统的网络搜索数据的信号提取—→信号筛选—→搜索数据的指数合成—→噪声过滤—→预测能力分析的整体分析,并以“九寨沟旅游”为例进行实证讨论,取得了一定的理论和实证成果,并提出了相应的管理建议。 (1)本文在对信息搜索行为进行文献回顾的基础上,分析了网络搜索行为的幂律分布特征,发现网络搜索行为符合Zipf定律,为利用网络搜索数据进行应用研究时的搜索词信号筛选和提取提供了相应的理论依据和基础。 (2)分别从搜索词、网络搜索路径和事件影响三个方面,将网络搜索数据中的噪声分为搜索词本身的噪声、网络搜索路径中产生的噪声和事件性随机噪声。这三种不同类型的噪声分别需要不同的方法进行处理,避免了单一的噪声处理方法或者出现噪声无法有效分离和识别,导致噪声过滤后有效信号中仍存在大量的噪声干扰,预测能力下降。 (3)根据噪声产生的机制分析,提出了噪声引起的网络搜索数据“测不准”理论框架。整个理论框架形成一个包含了噪声干扰、网络信息搜索行为和预测行为的整体闭环,揭示了噪声在网络搜索数据“测不准”中的作用。 (4)提出了基于QCR-PGAM的两步信号甄别法,这种信号甄别法包含了基于QCR的信号提取和基于PGAM的信号筛选。基于QCR搜索链的信号提取有效过滤了由搜索词本身产生的噪声,提高了搜索信号的预测能力。而基于PGAM的信号筛选则有效过滤了由网络搜索路径中产生的噪声。通过对比分析发现,基于QCR-PGAM的两步信号甄别技术可以有效提高网络搜索数据的预测能力。 (5)提出了基于Hilbert-Huang变换的合成信号噪声处理方法和基于HHT-GAM的单信号噪声处理方法。这两种噪声过滤的方法主要针对事件性随机噪声的过滤。经过噪声处理后的合成信号和单信号的预测能力都较之前有显著性提高。 (6)基于GAM(Generalized Additive Model)广义加性模型对网络搜索数据和预测目标对象九寨沟客流量之间的动态影响机制进行了分析。根据EMD分解的结果,按照频率特征分别将网络搜索指数和九寨沟客流量分解为短期、中期和长期序列,GAM模型不仅给出两者之间的显著性关系,并给出各解释变量与被解释变量之间的非线性影响关系。研究结果发现,网络搜索数据和九寨沟客流量之间在各时期均存在显著的影响关系。