文档聚类相关论文
近年来,随着Internet 的不断普及,越来越多的用户利用搜索引擎来搜索网上的信息,尽管搜索引擎的发展已经比较成熟,但人们却发现要......
搜索引擎已成为网上使用率最高的工具之一。它的主要衡量指标有两个:覆盖率和精度。然而,调查显示,单独一个搜索引擎对网上信息的覆盖......
本文对文档分类和聚类方法及其在信息检索中的应用进行了深入研究,主要包括以下几个方面的内容:通过对当前分类方法的分析,提出了......
随着网络技术的迅猛发展,许多公司都企图借此以更贴近用户的服务提高各自的竞争力。用户到底偏好什么成了他们重点关注的问题。人......
伴随着万维网的发展,越来越多的人开始以网络进行生活、工作和学习.信息检索已经构成网络的一个不可或缺的因素.在进行信息检索时,......
聚类技术是数据挖掘领域具有重要价值的技术之一,随着网络在社会生活的不断深入,加之数据库技术的迅速发展和普及,Web挖掘日益受到......
近几年来,随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效的获取有用的信息......
XML(e Xtensible Markup Language)是因特网中信息描述、传输和交换的重要标准,而XML文档聚类是众多XML文档整合和管理技术中关注......
随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效地获取有用的信息,已经......
近年来,随着互联网的快速发展,网络上的数据越来越庞大,而且数据的类型也越来越繁多,如何有效地利用这些数据,从中提取用户所需要......
随着Internet的飞速发展,搜索引擎成为人们在网络中频繁使用的工具。然而,随着网络中信息的急剧增加,传统集中式搜索引擎已经越来......
话题检测是处理互联网新闻的一种重要方法,使用聚类方法对新闻文档进行处理是实现话题检测的一条重要途径。凝聚层次聚类算法由于......
随着互联网技术迅猛发展,XML文档由于其自身的自描述性、半结构化、可扩展性等特点,已经成为当今网络时代的信息载体与交换方式,一......
互联网的快速发展导致了互联网上的信息量与日俱增。如何从互联网上获取用户所需要的信息已经成为了一个热门问题。在这个背景下,信......
随着的Intemet飞速发展,人们利用Intemet发展和共享各种信息,使得信息爆炸式增长,普通网络用户查找所需资料变得非常困难,搜索引擎正是......
DNA-GA算法本质上是建立在DNA编码上的遗传算法,是将进化计算领域和DNA计算相结合的一种表现形式。DNA-GA算法所采用的DNA编码方式......
随着计算机网络以及数据库技术的快速发展,各领域积累的半结构化数据和信息急剧增加,迫切需要面向知识发现的方法,而数据挖掘的出......
利用一种基于十字链表快速挖掘频繁项集的算法代替传统算法产生频繁项集,改进基于频繁项集的文档聚类方法在web文档上的应用.通过......
K中心点算法是一个常用的聚类算法,它的主要缺陷是容易陷入局部极值,计算代价太高.本文先构造一个运用余弦相似度的K中心点文档聚......
为实现文档在不同概念层次下的自动聚类,研究了潜在语义空间中维度的统计特性,发现对应大奇异值的维度描述了语义元素间的共性,对......
目前常用向量空间模型VSM(vector space model)表示文档,造成的高维问题制约了其实际应用的效果。采用了一种高性能特征选择函数,......
以矢量空间模型VSM为Web文本的表示方法,提出了一种基于关联规则的Web文档聚类方法。实验证明:该方法能在保证文档聚类高精度的同......
提出了一种把自组织特征映射SOM和K-means算法结合的聚类组合算法。先用SOM对文档聚类,然后以SOM的输出权值初始化K-means的聚类中......
针对现有搜索引擎的搜索结果数目庞大要从中找到有用信息十分困难的问题,基于将Web搜索结果进行聚类可以方便用户快速浏览搜索结果......
随着互联网的迅猛发展,信息爆炸式增长,产生了信息过载,而在相当程度上,搜索是面临信息过载的唯一选择。但是,现在的搜索引擎缺陷也很明......
随着互联网上信息数量的不断增长,传统的信息检索技术已经很难满足人们对查询质量的苛刻要求。为了方便用户从检索结果中快速、准确......
当前监督或半监督隐藏狄利克雷分配(latent Dirichlet allocation,LDA)模型多数采用DSTM(down-stream supervised topic model)或USTM(up......
基于Web的个性化学习是在远程学习和个性化服务相结合的基础之上发展起来的。利用Web挖掘的方法,针对用户的兴趣变化,搭建了个性化......
为了准确高效地对网上获取的文档进行聚类,在布尔逻辑模型的基础上提出了一种改进的最优相似度搜索方法。该方法将模拟退火的思想融......
1,引言近年来,随着互联网的迅速发展,基于Web的数据挖掘技术受到越来越多的关注,经常用在文本挖掘和信息检索等多个领域的聚类(Clu......
随着信息数字化的快速发展,新兴的归档存储成为研究热点,空间利用率和扩展性是其关键问题。利用基于内容分块存储实现重复数据删除,是......
文中研究的是文档聚类的方法,即将给定文档集合中的文档进行分类,以达到准确聚类的目的。提出了一种将模糊C均值(FCM)和改进的LSA(Lat......
为了挖掘XML(Extensible Markup Language)文档在历史变化过程中不经常发生变化的结构所蕴含的知识,给出了发现冰冻结构的方法,使用一......
Web文档聚类在Web信息检索中起着重要的作用。文中提出了一种新的Web文档聚类和检索算法。该算法采用有序聚类的方法,根据Web文档的......
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文......
搜索引擎大多以文档列表的形式将搜索结果显示给用户,随着Web文档数量的剧增,使得用户查找相关信息变得越来越困难,一种解决方法是对......
该文应用LDA模型进行文档的潜在语义分析,将语义分布划分成低频、中频、高频语义区,以低频语义区的语义进行Web游离文档检测,以中......
提出了一种基于路径的XML文档结构聚类方法(PBC).与其他方法直接计算XML文档结构距离不同,该方法通过对文档包含的路径聚类,间接完......
文档聚类在Web文本挖掘中占有重要地位.是聚类分析在文本处理领域的应用。文章介绍了基于向量空间模型的文本表示方法,分析并优化了......
为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用......
由于网络信息的激增,如何充分利用大量的信息,并有效地为Web用户服务成为一个急需解决的问题。相关研究表明利用Web文档聚类的方法可......
随着World Wide Web上数据量的日益庞大,现有的搜索引擎已经不能满足用户日益增长的需求.利用数据挖掘技术,提高搜索效率,实现了查......
文档聚类随着网上文本数量的激增以及实际应用中的需求,引起了人们广泛的关注。针对目前文档聚类的主要缺陷,提出了一种新的基于本体......
提出一种新的基于术语簇和关联规则的文档聚类方法。首先对文档集合进行分词,根据术语之间的平均互信息形成术语簇.用术语簇来表示文......
使用聚类技术对BNR进行扩展,得到一个新的4层模型,该模型同时使用了术语间和文档间的相近和相似关系,将此扩展模型和简单的RNR、扩展......
针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义......