论文部分内容阅读
本文的研究目的在于通过分析大规模搜索日志来理解搜索引擎用户的行为特征。通过设计和建立出具有16个一级分类和90个二级分类的Query分类体系,并在此基础上构建具有8.6万词的核心词库的方法,为分类算法提供训练集。进而设计分类程序,从用户属性,时间,地域和历史变化等多个维度分析Query所具有的特征,以此作为理解用户行为的方法。 经过对数据的分析和挖掘,证明了海量搜索日志对分析用户行为的重要性。分析结果显示当前国内搜索引擎以18~24岁且学历较高的用户居多,大量的Query与这类用户本身具有的教育背景等特征一致,并且Query能够体现出根据时间和地域不同而有所变化的特征,休闲娱乐是大部分用户使用互联网的丰要目的。而Query的历史变化曲线显示出国内互联网高速发展且将继续发展的特征。 本文对于理解和改善搜索引擎产品质量,了解和预测互联网发展具有重要意义,在将来仍然具有发展和研究价值。