Web文本聚类相关论文
形式概念分析自1982年由德国的Wille教授提出以后,近年来被广泛用于软件工程、知识发现、信息检索等领域。形式概念分析中的核心数......
随着互联网技术的快速发展和个人计算机的普及,目前全世界每四个人中就有一个人使用计算机上网[1],2010年中国的网页数量高达336亿......
随着Internet和Web技术的飞速发展,Web已经成为一个海量动态的信息资源库;而文本是信息最重要的载体,研究表明信息有80%包含在文本......
2013年1月,中国互联网络信息中心发布了《第31次中国互联网络发展状况统计报告》,其数据显示当前互联网的信息量以惊人的速度持续增......
如今,Web信息检索技术已经是人们搜索信息的一个重要方式,随着信息量的不断增大,今天的我们已经不得不花费大量的时间对检索到的信......
Web文本聚类是使文本之间具有最大的簇内相似性,同时具有最小的簇间相似性,它是一个将文本集分组的全自动处理过程。本文首先提出......
提出了一种改进的HL-DBSCAN聚类算法,即基于分级的密度聚类算法的改进算法。该算法的时间复杂度较HL—DBSCAN聚类算法小,其适用范围......
设计了一种基于主题的Web文本聚类方法(HTBC):首先根据文本的标题和正文提取文本的主题词向量,然后通过训练文本集生成词聚类,并将每......
传统的文本聚类缺少语义信息,文本的特征向量高维稀疏,忽略了Web文本的特殊性。为了解决这些问题,提出一种Web中文文本聚类方法。......
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的......
随着万维网的迅猛发展,用户可在线获得的信息量呈指数级增长。面对如此浩瀚的信息,人们迫切需要寻找一条能够快速、准确获得所需信息......
Internet中的信息越来越丰富,使得搜索引擎准确率不高等问题愈发严重。本文对如何利用文本挖掘技术解决Web信息检索中准确率不高等......
随着计算机网络的发展,各种文本资源以惊人的速度增长,导致信息搜寻困难和信息利用率低下。而快速高质量的Web文本聚类技术可以满......