论文部分内容阅读
随着信息时代的发展和信息技术的普及,网络搜索引擎已经逐渐成为人们搜集获取信息的主要工具,互联网成为能够反映网民搜索印记的巨大数据库,为了充分利用互联网数据库中的重要信息,谷歌和百度公司分别推出了统计网络搜索关键词搜索热度的工具谷歌趋势和百度指数。随后国内外引入网络搜索关键词所进行的研究越来越多,应用的领域也逐渐覆盖了经济市场的各个方面,涉及人们关心的各种热点问题。房地产市场被看作经济发展的风向标,是关系人民生活质量和社会稳定发展的重要方面,是影响地方经济水平的重要因素。近年来,我国房地产市场迅猛发展,与此同时高速的发展也引来无数争议,各项针对房地产市场的调控政策不断推出,对房地产市场进行深入研究显得十分必要。国家统计局网站每个月都会对我国的商品房销售额情况予以公布,从商品房的成交额情况可以了解到房地产市场的景气程度和运行状况,由此如果能对商品房销售额进行提前准确预测将为人们做出购房决策以及政府制定相关政策提供重要依据。房屋基于其作为商品所具有的价值大、使用时间长等特点,使得人们在做出购房决策前会进行大量的信息检索和收集工作,而在互联网高度普及的今天,网络搜索成为人们获取信息最为廉价和快速的途径,由此可以通过网民在网上检索时留下的相关信息,判断其可能做出的经济行为,因此可以利用网络搜索关键词对商品房的销售额情况进行预测。但是面对互联网上的海量信息,如何从繁杂的信息中剔除冗余信息,挑选出有价值的信息充分利用,一直是研究过程中的重点和难点。本文通过阅读相关文献,对一些关键词的选择和拓展方法进行了思考,并予以归纳总结,详细叙述了种子关键词选取、种子关键词拓展的目标和意义,介绍了在选取种子关键词和拓展种子关键词过程中可以应用的方法,并基于灰色关联聚类分析法和网络搜索关键词的特征,将灰色关联聚类的分析方法应用于关键词的优化过程中。对于利用网络搜索关键词预测商品房销售额的问题,本文根据商品房销售额的影响因素,结合范围取词法和直接取词法确定种子关键词,利用搜索引擎的“相关搜索”功能,对种子关键词进行拓展。基于拓展关键词与商品房销售额的领先阶数以及相关系数选出符合要求的关键词,进一步利用灰色关联聚类的分析方法对关键词进行优化。最后,建立优化后的关键词与商品房销售额之间的回归模型,并将其与基于主成分分析法得到的模型相比较,发现利用优化后的关键词所建立的回归模型的拟合优度和预测效果都更好。