基于K-medoids聚类算法Web信息集成方法的研究与实现

来源 :沈阳建筑大学 | 被引量 : 0次 | 上传用户：JK0803_zhouli

【摘要】

：

随着信息社会的不断发展,人们对信息的需求量逐渐增多,Web上拥有大量的信息资源,它逐渐成人们获取信息的重要途径。然而,由于不同的网站使用的数据往往具有不同的数据格式,所

【作者】

：

王忠强

【机构】

：

沈阳建筑大学

【出处】

：

沈阳建筑大学

【发表日期】

：

2011年期

【关键词】

：

Web数据集成聚类算法解析抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息社会的不断发展,人们对信息的需求量逐渐增多,Web上拥有大量的信息资源,它逐渐成人们获取信息的重要途径。然而,由于不同的网站使用的数据往往具有不同的数据格式,所以构建一个Web信息集成系统是很有必要的。聚类算法改进的研究是Web信息集成系统实现过程中的热点问题,可以更方便用户对分布在不同网站上的信息查询,为了实现这一目标,我们首先要把来自不同网站的数据进行聚类,通过聚类可以把海量的数据聚集成几个分类,在各个分类中选择出各个聚类的中心点,以各个中心点来代表各个聚类,新的数据只需与聚类的中心点作比较,不用再与聚类的每个数据点一一作对比,这样可以有效的降低数据集成的复杂程度。这就是聚类方法,具有重大的现实意义。本文通过对近几年国内外研究成果的分析和研究,针对现有的聚类方法准确度低,效率低等缺点。对传统的聚类方法进行改进,使其达到在准确度相对较高的情况下,效率有所提升。论文主要的研究内容有以下几个方面:(1)对传统的K-medoids聚类算法进行改进。在改进的过程中,主要是针对初始的聚类中心点的选择方法进行优化,在实行新的选择方法的过程中有效的降低了相邻数据对象同时作为初始的聚类中心点的可能性,缩减了在寻找最终的聚类结果过程中的迭代计算的次数,在一定程度上降低了聚类过程的复杂度,从而有效地提高了聚类的效率,同时在聚类的过程中设定聚类的半径,这样做的目的是可以将一些与聚类本身不相关的数据剔除掉。(2)将改进后的K-medoids聚类算法与Web集成技术相结合。并且按照Web信息集成的基本步骤,实现对Web页面的解析器、数据抽取器和数据集成模块的设计,有效的将聚类算法运用到Web信息集成技术中。(3)根据以上的两个研究结论,并且结合信息集成技术,HTML的相关知识、JAVA程序设计方法、XML技术和相似性计算等相关技术对传统的Web数据集成的方法进行相关的改进,为用户提供了一个快速的、便捷的、准确的、高效的数据集成方法,并使其具有良好的实用性。

其他文献

基于粗糙集理论和自适应的图像中值滤波改进算法

图像信号在产生、传输和记录过程中,经常会受到各种噪声的干扰,这破坏了图像的视觉效果,严重影响了边缘检测、图像分割等后续处理的进行。因此,采用适当的方法减少噪声(即对

学位

图像去噪中值滤波粗糙集自适应中值滤波

基于RBFNN与D-S理论的数据融合方法及应用研究

近年来,随着各种应用需求的不断增长,数据融合技术作为一门新兴交叉学科得到飞速发展和广泛关注。各种传感器、信息源所获得的大量数据均希望通过数据融合系统相互互补,以获

学位

数据融合Fisher分值神经网络D-S证据理论入侵检测

框架语义推理技术研究

在自然语言处理领域,语义推理研究是一个非常重要的研究课题。虽然目前的语义研究尚且不够成熟,但语义推理研究对于深入分析文本语义,使计算机更加智能具有深刻的意义。本文

学位

语义推理汉语框架网框架网络语义联系阅读理解

聚类分析在电信客户细分中的应用

在电信行业,其客户数据的增长速度越来越快,为了提高其决策效率,人们已将数据挖掘中的聚类分析技术引入电信业的客户关系管理中。在数据挖掘中,大部分对象的类属性和归属关系没有严格要求和限制,这些对象数据的属性存有重复叠加性、和交错性,这种特点比较适合进行模糊划分,而且现实生活中许多客观事物之间又具有模糊性,便产生了模糊聚类分析。将模糊聚类应用于各个领域成为了一个研究热点。本文对课题研究主要有以下几个方面

学位

数据挖掘模糊理论聚类技术FCM算法客户细分

基于JMS的消息中间件的轻量级设计与整合

伴随着网络技术的发展，许多应用需要迁移到网络环境的异构平台上，这对新一代的软件开发提出了新的需求。中间件(Middleware)正是应这个需求而被提出，成为研究的热点。　　消息

学位

消息中间件软件开发数据交换分布式系统网络协议消息驱动轻量级设计

基于显著性检测的自然场景图像分类算法研究

学位

基于万圣约束降维和分类器集成的MicroRNA识别方法研究

MicroRNA(MiRNA)是RNA家族中的一员,被称为小分子RNA。目前,众多的研究表明,miRNA与生物体的基因表达、生长发育和行为等都有十分密切的关系。早期对miRNA的识别均采用生物学

学位

MiRNA识别万圣约束降维集成学习半监督降维分类器集成机器学习

基于神经网络模型的汉语基本块识别

汉语基本块识别是汉语语块分析体系中的基础任务之一,属于浅层句法分析的一个环节。对给定的汉语句子,汉语基本块识别任务将形式化为以字为基本标注单位的序列标注问题。基于

学位

汉语基本块识别神经网络模型整句似然函数隐层特征字分布表征

汉语篇章零形式识别与填充

零形式是指句子中隐式的、未显示表达的语义成分,是传统语义角色标注不能标注出的语义角色,也不是谓词依存成分的语义角色。零形式被区分为有定的零形式和无定的零形式,其中,

学位

汉语框架网零形式识别有定零形式填充框架关系

云环境下基于QoS的服务组合机制

云计算作为新兴的一种计算模式，它以互联网为基础，以服务的方式对外提供计算能力。它将网络上的各种资源整合成一个分布式服务集群系统，为用户提供可以缩减或扩展的计算资源。计

学位

云计算海量分布式数据云服务组合QoS属性

基于K-medoids聚类算法Web信息集成方法的研究与实现

与本文相关的学术论文