WEB日志挖掘及其应用研究

被引量 : 0次 | 上传用户:wubaishan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WEB是一个非常巨大的信息来源地,不过提供这些信息的网站结构是否合理,唯一的评估者是访问浏览它的用户。每次用户的访问都会在WEB服务器上记录一条访问日志,根据这条日志可知用户访问此站点的URL,用户的IP地址以及访问时间等信息。我们通过对这些日志信息的分析和处理,可提取出访问者的WLP(Web Log Path)。分析这些WLP并挖掘出用户的通用行为模式,可以调整网站结构,优化系统性能,进一步提高对WEB终端用户的服务质量。本文意在通过对WEB日志的挖掘和用户访问模式的研究,开发出一套基于WEB日志挖掘的智能网站知识提取系统。该系统通过对WEB访问日志的分析,提出了真实路径获取算法,前向访问路径截取算法,可发掘出多用户的通用访问模式,单用户的个人喜好访问模式;提出了目标页面确定算法,页面关联规则发现算法,用于找出互联网目标页面间的隐链接;发现了回溯过多的不合理页面节点,从而调整和优化了现有的网站结构;提出了用户访问路径会话集发现算法,加权网站结构图生成算法,用于发掘WEB站点的频繁遍历主干子网,可以为生成3G手机应用的WAP子网提供参考;提出了单用户搜索关键字关联规则发现算法,可以为单个用户提供量身定做的个性化搜索引擎服务;提出了一种新的数据随机干扰处理方法,实现了隐私保护关联规则挖掘模型;以及采用数据仓库和OLAP技术,实现了挖掘信息的统计决策及图形化表示。本文研究的网站日志挖掘算法及应用模型是当前互联网海量信息处理研究较为活跃的一个领域,模型本身体现了较先进的思想。通过有针对性的各种网站日志挖掘算法,可以发现用户通用访问模式,找到网站页面间隐藏的关联规则,从而实现网站结构的改进策略,以及在电子商务网站中实现最大的商机撮合。
其他文献
就130 t/h循环流化床(CFB)锅炉一次风机振动原因进行了分析,提出解决方案。实施后,风机运行正常,同时对改造效果进行了总结。
对农村计划生育家庭在资金和发展经济上给予帮助,使其增加收入,进而也增加了养老积蓄;对计划生育夫妇子女的各种优惠,是帮助家庭增加对孩子的抚养成本投入,以期将来转化为更
<正> 一、前言为了使凝汽器铜管保持清洁,提高汽轮机组的热效率,必须对污染的凝汽器铜管进行清洗。过去常采用的人工清洗、刷子清洗、干洗或化学清洗等方法,,都因为有较多的
为了探寻适合企业发展的经营模式和决策方法,文章提出了一种基于知识的供应链决策框架,探讨了知识积累和知识挖掘过程,通过知识与推理机制的集成和人类智慧与枯燥数据之间的
本文旨在对于牛津高阶英语词典(在后文中使用缩写形式OALD)的四个双解版本的释义翻译的处理方式做一个量化研究。双解词典是词典家族中的一个大家庭作为一种特殊的双语词典,
<正>在马上就要到来的圣诞、新年、春节假期里,有无数远行的计划想要实施,可是,家里的那个小家伙该怎么办?别担心,在我们出行的日子里,为它们寻找一个温馨的度假屋,让它们也
期刊
阅读是人类特有的文化传播活动,是人接受教育、发展智力、获得知识信息的最根本途径。然而,我国的国民阅读率持续走低的现象,发人深省。图书馆作为社会公共文化服务体系的重
近年来,随着城市化进程的加快以及农村产业结构的调整,城市蔬菜供销形势发生了巨大的转变,市场蔬菜供应安全问题日显重要。蔬菜作为菜篮子工程的重要基础性商品,与广大消费者
网络技术的快速发展,尤其是P2P应用的飞速发展,大大丰富了互联网的内容。但其服务大多采用端口跳变和协议加密等相关技术,使传统的基于端口和有效载荷的分类方法的效率大大降
期权是金融衍生品市场创新的典范。期权工具已经成为投资者进行防范风险的重要工具。Black-Scholes期权定价公式对期权定价和风险的管理进行了定量的分析,是期权工具迅速普及