【摘 要】
:
随着互联网的快速发展,搜索引擎、门户网站等网络产品后台产生了大量的Web日志。然而,原始的Web日志都是些一维的记录式数据,其格式大致上都是“[某人][某时][用搜索引擎查询了
论文部分内容阅读
随着互联网的快速发展,搜索引擎、门户网站等网络产品后台产生了大量的Web日志。然而,原始的Web日志都是些一维的记录式数据,其格式大致上都是“[某人][某时][用搜索引擎查询了某个关键词或者浏览了某个门户网站的网页]”,从大量这样的日志中获取用户信息是很困难的。
本文以Web挖掘理论为基础,以Web日志分析发展现状为背景,提出将多个网络产品的Web日志结合起来进行分析,从中提取网络用户的群体特征,服务于Web广告商和广大网络用户。并完成了一个Web日志用户群体分析系统的设计与实现。
Web日志用户群体分析系统把关注点放在用户群体特征上,对大量的Web日志数据进行整理和统计,生成多维的关于用户群体特征的信息。比如网络用户中的男女比例、年龄分布、婚姻状况、职业分布、国家地区分布和所使用的语言特征等等,并且把这些信息用直观的柱状图、饼状图或曲线图展示给广告商或者其他感兴趣的用户看。
系统还生成一些关于搜索引擎热门查询关键词的统计报告,显示在一段时间内哪些关键词被查询的次数最多,并且用曲线图描绘出这些热门关键词在一段时间内的变化趋势。
另外,系统对网址的访问情况进行全方位统计,对于网址管理者改善用户体验有着很重要的参考价值。
本文的整个思想就是从大量Web日志数据中提取有意义的信息。为广告商提供用户群体特征,提高广告投放的效益。网络访问统计信息可以用于网站管理员了解Web用户的情况,改善用户体验。
Web日志用户群体分析系统进一步丰富了Web日志分析的内容,并且使服务对象更加广泛。
其他文献
计算机模拟在当代化学、生物学、制药学以及流体力学等科学领域的研究中都扮演着不可替代的作用。通过对介观层面上的颗粒以及分子的模拟,可以大大地缩短这些科学研究方法的周
随着并行计算技术的发展,越来越多的程序是基于并行模型开发的,而且它们会被托管运行在SMP虚拟机平台上,这就要求宿主机平台能够提供高效的虚拟机管理功能。其中,开源虚拟机监视
计算机网络的高速发展给计算机网络管理提出了更高的要求。在早期互联网并未充分地考虑其安全问题,但今天安全问题愈加突出,成为研究热点和业界瞩目的焦点。为了解决计算机网络
电力行业是国民经济的支柱产业,为提高电力运营的经济性和可靠性,需要在规划选址、经济运行中综合考虑诸多关联因素。电力系统中存在各种输变电设备状态监测系统用于提高运行稳定性。各种输变电设备状态监测系统在长期运行中积累了大量历史数据。合理利用这些历史数据,对于帮助电力系统决策人员做出科学的决策具有重大意义。考虑到各种电气设施分布在广阔的地域空间上,导致从这些设备采集到的运行数据多包含地理属性。为有效对这
随着计算机技术的不断发展以及其软硬件的更新换代,越来越多的人开始使用计算机对图像做各式各样的处理。图像处理技术也在迅速的发展,其应用范围也不断拓展,例如机器人视觉
随着移动电子设备在日常生活中的广泛使用,人们可以方便快捷地通过拍照获取图像,而图像中往往包含着内容丰富的文字信息,基于摄像头的应用产生了大量对拍摄场景内容理解的需求。
随着网络化的高速发展,对数据的需求越来越大,于是大数据时代来临了。而大数据的出现也带来了数据的安全问题。因此,基于隐私保护的数据挖掘技术得到了广泛的研究,本文针对基于隐
随着网络技术、无线通讯技术的发展和移动设备的普及,人们迫切需要在任何时间、任何地点通过移动设备访问所需数据,使得任何地方都可能成为工作场所,以提高工作效率。这种全
目前的互联网已经发展成为拥有上亿用户和几百万个站点的巨大的分布式信息空间,而且其信息量仍在飞速增加,因此查询网上信息变得日益重要。大多搜索引擎采用的方法是用户提出需
分布估计算法与传统遗传算法一样,提供了一种求解复杂系统优化问题的通用框架,它不依赖于问题的具体领域,具有很强的自组织,自适应和自学习等特征,所以在组合优化,机器学习,生产调度