搜索引警检索结果聚类系统的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:sunmoon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和搜索引擎技术的飞速发展和日趋成熟,人们逐渐频繁使用因特网来获取需要的资源,尽管现有的搜索引擎采取各种方法来提高检索结果的精度,但其中的相关文档和不相关文档鱼目混杂,给用户查找信息带来了负担。   将搜索引擎检索返回的结果进行聚类操作,将其分成若干个类,同一类内的文档相关度尽可能的大,不同类之间的文档相关度尽可能的小,这种方法将大大缩小用户需要浏览返回结果的网页数量,从而缩短了用户查询所需要的时间。   本文就文本特征提取、特征加权和文本聚类算法进行了深入的研究,采用TF-IDF算法作为特征提取和加权的算法,STC聚类算法作为聚类算法,主要研究内容如下:   1)作者对文本聚类预处理的关键技术做了深入的研究,在此基础上设计和实现了包含搜索结果获取、网页去噪、分词、去停止词、标记词性等功能的预处理模块;   2)TF-IDF是向量空间模型中最常用的权重加权算法,但是,词对文档的重要度还与词在文档中的位置以及词性等因素有关。本文在传统的TF-IDF基础上加入了位置权重和词性权重对其进行修正,并进行实验对比,实验证明改进后的TF-IDF有效地提高了聚类算法的宏平均和微平均,从而使系统的性能有了很大的提高;   3)本文对STC算法做了深入的研究和分析,通过对比实验证明它比目前流行的Lingo算法和K-means算法更适合作为搜索引擎检索返回结果的聚类,STC算法提取出的标签更能反映类别信息,易于理解,聚类的时间复杂度也可以让用户接受。
其他文献
物种形成是地球上生物多样性产生的前提和基础。物种形成有两种方式:谱系分裂(lineagesplit)和谱系融合(lineagefusion)。物种形成的模式与机制研究一直是进化生物学最中心的
随着处理器频率提高趋近极限,单处理器多核心技术成为当前处理器平台的主流。随着半导体技术的进步,单一处理器集成核心的数量逐渐增多,多核处理器的计算能力越来越高。DPI(
本文以AMP-2为对象,研究确定其分离纯化的最佳方法及条件、化学组成、降血糖活性的鉴定及有效成份的确定。 针对AMP-2的主要成份为多糖和黄酮类,分别采用了分子筛分离法和大
森林土壤层在森林水文功能中发挥着水分蓄存器和调节器的作用,大孔隙是森林土壤中常见的现象,对森林土壤水分的运动过程有着重要的影响。因此,探讨森林土壤大孔隙在土壤中的数量
由于海洋具有的重要军事、经济等战略地位,海洋高新技术的研究受到日益关注,海洋资源的开发对海洋信息传输提出重大需求。水声信道作为目前所知最严酷、复杂的无线通信信道,具有强多途干扰,频率扩展严重,高噪,窄带等特征。因此,鲁棒水声通信系统的研究具有重要的意义。本文针对水声信道存在的时变性和频变性问题,结合正交频分复用技术和码复用差分混沌移位键控技术,设计了两种新的多载波差分混沌调制系统。本文的主要创新工
学位
随着互联网的高速发展,对于网络应用的管理与网络流量的控制,已经成为研究网络的重要课题。有效的网络应用的识别与管理不仅能够让网络管理人员及时了解网络的运行状态,并且
为促进红麻抗虫转基因育种研究的发展,本研究以国家级重点推广的6个红麻高产优质抗病新品种为受体,采用花粉管通道法(即柱头滴加法和子房注射法)将抗虫(Bt)基因导入受体红麻品种。
近年来,波达方向估计已成为信号处理的一个重要分支,在通信、雷达、声纳、地震勘探等领域获得了广泛的应用与迅速的发展。许多优秀的波达方向估计方法在一定的条件下都可以得
随着信息技术的高速发展,危害信息安全的事件也不断发生,信息安全形势日益严峻。终端安全已经成为保护信息安全最为重要的一环。于是可信计算技术应运而生。可信计算技术以可
预编码技术在传统多输入多输出(MIMO)系统中的研究已经较为成熟。在无线协同中继系统中,多个通信实体之间通过协作方式共享有限的无线资源,多个节点在中继传输过程中可以使用