Web信息检索中若干技术的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:LeoPark
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对Web信息检索领域中的若干技术开展了研究,主要工作包括以下几个方面:文档聚类技术的研究。本文提出了一种平面-层次式的文档聚类方法FHC。该方法采用了先平面聚类、后层次聚类的思想,并融合了传统的分割聚类法和凝聚聚类法的特点,具有较低的计算复杂性和较好的聚类效果。 文档分类技术的研究。本文实现了一个多值返回的层次式文档分类系统MHCS。该系统具有算法简洁、可理解性强、分类精度高的特点。同时,在文档聚类技术的支持下,本文为该分类系统设计了一种有效的训练资料准备方法。此外,本文提出了一种增量训练算法。该算法利用未标注文档来提高分类系统的分类精度,减少了分类系统在训练阶段对已标注文档的需求。 网页内信息块自动提取技术的研究。本文试图将Web信息处理从“网页”深化到“网页内的信息块”这样一个更细的粒度。为此,我们从结构和语义两个不同的角度对网页中的信息块加以定义和区分,提出了结构信息块和语义信息块的概念,并分析了两者之间的关系。在此基础上,我们提出了一种新颖的网页信息块提取方法,该方法同时从语法、结构和语义三个层次对网页进行处理,综合考虑了网页结构的信息和网页中信息块之间的语义联系。我们还进行了大量的实验,对该方法的信息块提取效率及其对后续应用的影响加以评估。实验证明本文所提出的信息块提取方法能准确地从网页中提取出信息块,并有望提高后续Web信息处理系统(如网页检索系统,网页分类系统等)的性能。
其他文献
秘密图像信息的安全保护是信息安全的一个重要研究领域。图像秘密共享主要解决秘密图像信息在存储和传输时容易丢失和被篡改的问题,提高秘密图像保护的安全性。目前,图像秘密共
该文分析OSPF后,将OSPF协议与RIP协议作比较.通过比较,OSPF协议的优越性显而易见.它在收敛性、可扩展性、健壮性和安全性等方面都有自身的优点.它对于大型网络具有绝对的优势
该文详细分析了目前国际上常用的故障注入技术的优缺点和适用环境.针对于80486这种封装复杂的目标芯片,插入探针方式的搭接式故障注入方法已经不适用,为此,该文采用了嵌入式
该文针对文件所面临的安全威胁,分析了现有的文件保护技术,并提出了基于计算弹性理论的文件保护方案,即弹性文件系统模型.该模型除了具有文件系统的基本功能——文件的基本I/
随着网络技术和通信技术的长足发展,因特网已成为现今世界不可缺少的信息交流手段。人们的生活、工作和娱乐方式已逐渐地溶入其中,例如远程教育系统、网络视频会议系统、视频点
自从20世纪70年代网络出现以后,随着Internet及相关技术的发展,人们已经把越来越多的工作放到了网上进行,于是不得不面对这样的一个现实:我们能不能完全控制这个虚拟的空间?
该文首先介绍了长春市电信局数据业务使用的"数据业务管理系统",该系统通过半年的实践使用,完成了当初的设计要求,取得了满意的效果."数据业务管理系统"主要实现了数据业务从
平面图的一种常用画法就是平面画法.该文主要研究无向图的平面判定算法和平面图画图算法.由于平面图广泛地应用于VLSI等领域,因此研究该问题有很重要的实际意义.该文首先对平
在当今的计算机领域,云计算的概念炙手可热,并且已经被证明是IT企业的未来应用的趋势。在云计算中,数据是在服务器和客户端之间进行传输的,相应的,网络传输速度是网络中的关键因素
随着互联网的快速发展,数据规模的不断扩大,云存储以其优异的性能和可靠性得到了广泛的应用和研究。云存储技术日趋成熟,能够充分利用廉价的低端配置主机,通过虚拟化技术整合