基于数据挖掘的Web挖掘系统的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:romme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着World Wide Web信息爆炸性的增长,人们迫切需要一种能从Web上快速、有效地获取知识的工具。现有的搜索引擎仅用于Web上的信息检索,而且覆盖率有限、精度不高,无法发现Web上潜在的知识。将传统的数据挖掘与Web结合进行Web挖掘,已成为数据挖掘的一个重要和繁荣的子领域。 论文侧重于Web挖掘系统自身的构建,建立了一个基于数据挖掘技术的Web挖掘系统的原型Web_Ms,目的是提供一个实用的Web挖掘工具的模型,帮助人们更有效地从Web上获取知识。 在Web上的半结构化数据的处理上,本文提出了利用XML数据抽取技术将半结构化数据映射为结构化数据、建立多层Web数据库,同时对Web日志预处理的方案,解决了Web挖掘系统数据源规范化的问题。在系统挖掘功能的实现上,采取将集成了多种数据挖掘方法的Web挖掘方法库作为一个模块嵌入系统中的策略,通过规定其接口规范和调用方法,使之与系统其他模块紧密结合,共同完成Web上的数据挖掘。 Web挖掘系统原型Web_Ms提供了一个Web挖掘工具的模型,对实用的Web挖掘系统的开发具有较好的参考价值,对Web挖掘的理论研究也将起到一定的推动作用。
其他文献
该文从现代系统论——自组织理论分析入手,利用系统动力学、比较分析、经济数理分析和信息经济学等研究方法对IT加工贸易领域物流的有序化过程展开了研究.首先,该文研究了系
在现实的商业活动中,人们的日常行为决策是基于“理性人”假设基础之上的。在金融和投资领域,已有大量实证研究证明人们在实际决策中会受到非理性因素的影响,导致决策结果会系统性的偏离“理性经济人”的假设。但是在供应链领域,行为决策的研究才刚刚起步,而库存决策管理是供应链管理中的首要环节,从决策人本身的行为和心理认知角度去研究库存决策无疑是有很大意义的。过度自信作为一种典型的非理性行为,在经济和金融领域比较
企业理论是过去十几年间主流经济学中发展最为迅速、最富有成果的领域之一,它与博弈论、信息经济学、激励机制设计理论以及新制度经济学理论相互交叉,大大丰富了微观经济学的