基于Query分类的搜索引擎用户行为研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:redfox1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究目的在于通过分析大规模搜索日志来理解搜索引擎用户的行为特征。通过设计和建立出具有16个一级分类和90个二级分类的Query分类体系,并在此基础上构建具有8.6万词的核心词库的方法,为分类算法提供训练集。进而设计分类程序,从用户属性,时间,地域和历史变化等多个维度分析Query所具有的特征,以此作为理解用户行为的方法。  经过对数据的分析和挖掘,证明了海量搜索日志对分析用户行为的重要性。分析结果显示当前国内搜索引擎以18~24岁且学历较高的用户居多,大量的Query与这类用户本身具有的教育背景等特征一致,并且Query能够体现出根据时间和地域不同而有所变化的特征,休闲娱乐是大部分用户使用互联网的丰要目的。而Query的历史变化曲线显示出国内互联网高速发展且将继续发展的特征。  本文对于理解和改善搜索引擎产品质量,了解和预测互联网发展具有重要意义,在将来仍然具有发展和研究价值。
其他文献
定位有竞争力产品在微观经济学中有广泛的理论意义。微观经济学的一个中心思想就是如何优化配置资源,实现自身利益最大化。通过定位有竞争力产品,可以指导生产者利用有限的资源
游戏中的人工智能研究一直是人工智能领域的研究热点,在多种实际游戏场景中取得了很好的效果。本文分析了棋牌类游戏智能的研究现状,针对国内的热门牌类研究,对非完全信息下的牌
可靠组播是建立在组播传输之上的一种可靠传输机制,由于不同的组播应用对数据传输的要求也不尽相同,所以目前还没有一种可靠组播协议能够满足所有情况。  为了发展我国具有自
随着软件产业的迅速发展,软件系统的规模和和结构日益复杂,人们对于软件产品的质量要求也越来越高。基于代码的审查技术和测试技术是常见的软件质量保障技术。代码审查过程的
近年来,JavaScript作为客户端Web应用最受欢迎的编程语言,受到了学术界和工业界的广泛关注。客户端JavaScript具有三个显著特性:1)弱类型与高度动态;2)事件驱动;3)操作复杂DOM对象
高光谱成像技术是20世纪80年代初在遥感界发展起来的新兴研究领域,是上世纪末本世纪初的遥感前沿技术。高光谱遥感的光谱分辨率在可见光区高达纳米数量级,往往具有波段多的特点,在可见到近红外光谱区其光谱通道多达数十甚至数百。高光谱成像系统的传感器接收到的地面辐射,既包括了地面反射光谱信息,也记录了大气辐射传输效应引起的地面反射辐照度的变化信息。在实际传输过程中,由于受到大气分子、气溶胶等的吸收和散射,电
随着越来越多的音乐资源被上传到互联网上,使得用来处理音乐数据库的音乐信息检索系统受到了越来越多的关注。目前,很多音乐网站都是根据流派信息来组织数据库中的音乐资源,因此
近年来,大规模问题引起了人们越来越多的关注。大规模数据对机器学习算法提出了更高的计算复杂性要求:包括存储和计算两个方面。  支持向量机(Support Vector Machines,SVMs)
随着大量可无线联网的智能移动终端的出现,给用户的工作生活带来了诸多便利,使得基于位置的服务得到了快速的发展,但也向计算用户位置的无线定位技术提出了更新更高的要求:易用
随着计算机技术和网络的发展,软件面临着越来越多的安全问题,人们对可信软件的需求也随之变得愈加强烈。可信软件的构建是当前国际上信息安全领域的研究热点。一般来说,软件包括