论文部分内容阅读
随着WWW技术的逐渐成熟,基于这一技术的应用以惊人的速度向社会生活方方面面渗透,使得人们交互信息不可避免的电子化和海量化.这些大量的Web数据中隐藏着有用的、重要的知识,这些知识不仅给电子商务带来了无限商机,同时也为数据挖掘技术带来了一个新的发展方向-Web挖掘.Web挖掘是指利用数据挖掘技术从杂乱无章的网络环境中挖掘出有用知识的过程.Web挖掘技术是网络技术与数据挖掘技术的一个综合,但是由于Web数据的特点,使得面向Web的数据挖掘比面向数据库的传统数据挖掘要复杂的多."Internet上支持高质量E-Services的零输入个性化技术的研究"项目是国家自然利学基金资助的研究课题,提出了在用户正常浏览时,不增加额外输入的前提下,实现面向用户个性化要求的网上信息发现与推荐.该文主要针对其中的Web挖掘数据源重构方面展开研究.Web挖掘数据源重构通常被分为三个方面:Web使用挖掘数据源重构、Web内容挖掘数据源重构和Web结构挖掘数据源重构.这三个方面相对独立,又彼此联系,对整个Web数据挖掘起到了至关重要的作用.该文首先对Web挖掘数据源重构的三个方面讨论了数据源重构的意义,说明了数据来源.在Web使用挖掘数据源重构部分,描述了整个重构过程中使用的数据结构和主要算法,完善了评价会话文件质量的标准;在Web内容挖掘数据源重构部分,分析了分词技术的研究现状,利用现有的技术,完成了对Web文档的重要内容提取和分词操作;在Web结构挖掘数据源重构部分,详细介绍了整个数据源重构的过程,给出了所使用的数据结构和主要的算法,最后介绍了重构结果的应用和重构过程的评价;基于Web挖掘数据源重构的结果,提出了一种新的Web页面加权技术,详细介绍了层次分析法的基本原理和主要的评价标准,提出了一种层次分析法的群组构造方法来对Web页面加权的技术.