Web信息检索结果聚类系统的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:Linuxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个信息化时代,由于互联网的迅速发展和电脑的普及,万维网已成为具有无穷潜力的信息索取和信息交换能力的全球信息资源中心,它对人类的各方面行为将产生日益重要的影响。搜索引擎能自动地对互联网上的信息进行动态的收集和存储,并按照用户的检索返回相关的结果集。它的出现大大提高了人类检索信息的能力。不过,随着网络信息量的迅速增长,传统的搜索引擎技术也只能为用户提供越来越长的检索结果列表。用户不得不从中进行按照自己标准的二次检索,浪费了时间和效率。可以通过将检索结果依据内容划分为相应的类别,使得用户能够更快捷准确地对检索结果进行浏览。这种引入了聚类分析技术的方法是对传统搜索引擎工作方式的一种改进。本文首先对数据挖掘的概念和应用领域进行简要介绍,并比较系统和详细的总结了聚类方法的概念、特点,重点阐述了几种经典聚类算法的实现方式,并分别分析了它们的优势和不足之处。在总结本领域的相关工作的基础上,本文提出了一种新的结合了基于短语显著性分值的特征项提取和K-means算法的文本聚类方法,显著性分值的确定考虑了传统的TFIDF相对词频以及短语的上下文独立性等因素,通过实验确定了显著性分值公式的系数。使用Java语言实现了一个基于上述思想的比较完整的文本聚类系统,包括文档预处理,特征项抽取,文档向量化和聚类过程等。通过实验,对聚类效果进行测试并对结果做了分析。从实验结果看,本系统能达到令人满意的聚类效果,并且与现有方法相比,在时间复杂度方面有一定的优势。
其他文献
随着与无线局域网的普及,无线网络通信技术已经在日常生活中无处不在了。无线Mesh网络(Wireless Mesh Network)作为一种新型的无线网络,由于其自组织,自适应,成本低,多跳,与其它网
e—Science是在重要的科学领域中的全球性合作,以及使这种合作成为可能的下一代基础设施。e—Science的实现将为科学家们提供一个信息化的科学研究环境,改变他们从事科学研究活
本文介绍了一个基于分层无线Ad Hoc网络,并自主实现的实时视频信息传输系统,详细讨论了系统中视频子系统的研究与实现。该系统具有较高的研究价值和广泛的应用前景,目前主要
工作流技术是近年来发展最为迅速的几项新技术之一。它是实现企业业务自动化的核心技术,也为协调复杂业务过程活动提供了有效的方法。工作流管理系统是开发和执行工作流的工具
模型驱动架构(MDA)是由OMG定义的一个软件开发框架,它以模型作为整个软件开发过程的中心,贯穿于需求分析、设计、实现和维护的全过程。MDA严格区分系统的功能规约与实现细节,在
三维空间数据场可视化分为“直接体绘制”和“间接体绘制”两种不同的方法。其中,MC(Marchling Cubes)算法是广泛应用的“间接体绘制”算法之一,该算法通过生成中间几何图元来
多源传感器图像融合就是将来自多个信息源的图像数据加以处理与综合,产生比单一传感器数据更精确、更可靠的描述和判决,使融合图像更符合人和机器的视觉特性,更有利于诸如目标检
随着因特网和个人电脑应用的不断普及,信息安全问题受到人们越来越多的关注。日益增多的各类黑客攻击、木马和计算机病毒严重地威胁着全球的计算机信息系统。其中,个人电脑又是
随着IEEE 802.11等无线接入技术的发展,无线Mesh网络已经逐步成为企业界和消费者瞩目的焦点之一。如何提高无线Mesh网络的容量来满足用户日益增长的带宽需求(如实时音频、视频
随着我国信息化发展进程加快,信息化覆盖面扩大,信息安全问题也就随之增多,其影响和后果也更加广泛和严重。同时,信息安全及其对经济发展、国家安全和社会稳定的重大影响,正日益突