Web挖掘中数据源重构问题的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:mowill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着WWW技术的逐渐成熟,基于这一技术的应用以惊人的速度向社会生活方方面面渗透,使得人们交互信息不可避免的电子化和海量化.这些大量的Web数据中隐藏着有用的、重要的知识,这些知识不仅给电子商务带来了无限商机,同时也为数据挖掘技术带来了一个新的发展方向-Web挖掘.Web挖掘是指利用数据挖掘技术从杂乱无章的网络环境中挖掘出有用知识的过程.Web挖掘技术是网络技术与数据挖掘技术的一个综合,但是由于Web数据的特点,使得面向Web的数据挖掘比面向数据库的传统数据挖掘要复杂的多."Internet上支持高质量E-Services的零输入个性化技术的研究"项目是国家自然利学基金资助的研究课题,提出了在用户正常浏览时,不增加额外输入的前提下,实现面向用户个性化要求的网上信息发现与推荐.该文主要针对其中的Web挖掘数据源重构方面展开研究.Web挖掘数据源重构通常被分为三个方面:Web使用挖掘数据源重构、Web内容挖掘数据源重构和Web结构挖掘数据源重构.这三个方面相对独立,又彼此联系,对整个Web数据挖掘起到了至关重要的作用.该文首先对Web挖掘数据源重构的三个方面讨论了数据源重构的意义,说明了数据来源.在Web使用挖掘数据源重构部分,描述了整个重构过程中使用的数据结构和主要算法,完善了评价会话文件质量的标准;在Web内容挖掘数据源重构部分,分析了分词技术的研究现状,利用现有的技术,完成了对Web文档的重要内容提取和分词操作;在Web结构挖掘数据源重构部分,详细介绍了整个数据源重构的过程,给出了所使用的数据结构和主要的算法,最后介绍了重构结果的应用和重构过程的评价;基于Web挖掘数据源重构的结果,提出了一种新的Web页面加权技术,详细介绍了层次分析法的基本原理和主要的评价标准,提出了一种层次分析法的群组构造方法来对Web页面加权的技术.
其他文献
随着机群系统的飞速发展,机群通信网络规模不断扩大,复杂性也不断增加,研究机群通信监控系统对保证通信系统的健壮运行和系统软件的调试和性能优化都具有重要的意义。本文从
本文讨论的是关于P2P环境下如何实现B2B电子商务注册机制的问题。本文首先分析了集中式环境下的B2B电子商务注册标准(如ebXML、UDDI)的优势和不足之处,接着讨论了P2P网络及其特
传统的串行通信方式能够实现点对点的数据传输,但在通信距离和传输速度上都有限制.随着设备网络化及普适计算模式的形成,许多带有传统串行接口的设备产生了Internet接入的需
本文对于电子货币研究的内容是:* 分析总结现有电子货币协议的特点和成果。系统阐述了当前研究的现状和研究中存在的问题,发展趋势和展望。* 在考虑了匿名性、效率、可用性、安
回归问题、分类问题和聚类问题是机器学习领域中的三类经典问题。现有的回归模型在处理回归问题时有一些弊端,而传统的分类算法和聚类算法在应对某些类别划分的相关问题时又有
随着计算机网络技术的迅速发展以及计算机互联网在人们工作生活中的广泛应用,互联网环境下大量的恶意软件已成为危害社会正常运行和人们的隐私安全的重要威胁之一。在恶意软件
本文讨论了一个面向企业动态联盟的服务合成系统、Scope4WS的模型和实现。该系统支持合成服务流程的建模、执行和监控,提供了合成流程中的授权控制和事务处理,并能够根据需求实
建立一个VD炉钢水温度的预报模型,在了解和掌握VD处理过程中钢水温度变化规律的基础上,制定合理的温度制度,实现对VD终点温度的精确控制,对生产的顺行有着重要的意义.该文通
该文面向汉语对话理解,研究了汉语对话中口语语义的表示,建立了汉语对话理解的情景语义模型DSSM(Dialogue-understanding Situational Semantic Model),并将研究成果应用于人
矩形件排样优化通常是指在一定数量的长和宽给定的板材上,尽可能多地排放所需要的矩形件,从而使得所需要的板材尽可能地少,以达到节省材料的目的。这项工作广泛用于机械制造