【摘 要】
:
传统的检索系统,认为文档和查询之间的相关性仅仅取决于文档和查询之间的共同出现的词,既不考虑那些在查询中出现而不在文档中出现的词,也不考虑那些在文档中出现而不在查询中出现的词对二者之间相关性的影响.本文结合Internet搜索引擎的检索对象篇幅较小、主题单一的特点,提出"主题关键词"这一新的概念;在此概念的基础上,利用词间相关性,给出一个切实可行的对检索结果进行重新排序的算法.
【出 处】
:
全国搜索引擎和网上信息挖掘学术讨论会
论文部分内容阅读
传统的检索系统,认为文档和查询之间的相关性仅仅取决于文档和查询之间的共同出现的词,既不考虑那些在查询中出现而不在文档中出现的词,也不考虑那些在文档中出现而不在查询中出现的词对二者之间相关性的影响.本文结合Internet搜索引擎的检索对象篇幅较小、主题单一的特点,提出"主题关键词"这一新的概念;在此概念的基础上,利用词间相关性,给出一个切实可行的对检索结果进行重新排序的算法.
其他文献
随着多媒体技术和因特网迅速发展,网上的图像资源日益丰富,图像检索成为重要的研究课题.本文提出了一种基于信息表征的图像检索方法,给出了图像的内容属性的表征方法以及利用改进的信息测度公式衡量图像相似性的方法.文中还给出了利用这种方法进行网上图像检索的初步实验结果.实验表明,这种图像检索方法对改善检索结果的相关性具有很好的效果.
万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和SVM等分类算法实现了网页的多层次多类别的分类.文中结合网页分类中的网页表示、特征提取、分类算法等技术讨论了HCS的设计、实现及其特点.实验结果表明HCS所采用的方法是有效的.文章最后指出了改
本文首先提出了一种基于最小损失的支持向量机模型(SLMBSVMs),该模型中参数n反映了两类错误损失率的比值.随后,借助SLMBSVMs的特性构造两个SVM并将其与KNN相结合提出了一种SLMBSVM与KNN相结合的网页分类算法,实验证明,该算法是切实有效的,具有较高的精确度.
本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果.系统在北京大学天网搜索引擎的基础上,运用中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果的排序合理性,提高了名人网页检索服务的质量.
本文受传统信息检索中对文本结构信息挖掘的启发,针对Web页面特点,提出基于HTML标签处理的加权策略,用于Internet搜索引擎.引言简单介绍纯文本信息检索中的词加权方法;第二部分在纯文本文档的加权公式tfidf的基础上,结合HTML标签特性,给出一个新的索引词加权公式;实验部分用布尔模型和扩展布尔模型分别对这两种方法进行了比较.结果表明采用布尔模型时,后者在系统的查准率和查全率方面都要优于前者
Internet高速发展,信息量书刊号膨胀.通常用户关心的可访问Web信息并不是存放在数据库系统中,而是在HTML页面中.HTML是一种显示描述语言,缺乏结构和元数据信息.通过浏览器,人可以非常直观地获取自己关心的知识和信息,但是计算机却难以理解这些HTML文档.这给信息集成、信息交换、Web知识挖掘、Web信皮的精确查询带来极大的不便.本文提出一种新的基于XML技术的Web信息提取算法.本算法分
基于Nosey Parker的FTP搜索引擎的配置和优化特点,本文探讨了特殊用途FTP搜索引擎的系统原理和优化方向,为用户带来方便.
本文介绍了对有规则路径表示的XML数据查询的处理方法,包括传统的处理方法、改进的处理方法及相关的理论基础;然后提出了用动态规划算法对XML数据查询的处理进行优化,包括设计步骤和具体算法;最后对全文内容进行了简要总结.
搜索引擎已经成为人们上网必不可少的工具.随着IE 5.0对嵌入工具栏的支持,各个搜索引擎纷纷推出了自己工具栏,但这些功能相似的工具栏占据了大量的用户浏览区域,我们开发的"天网搜霸"有效地解决了这个问题.它集所有搜索工具栏于一身,实现了大部分搜索工具栏常用的功能,并提供了独特的搜索引擎分类功能.除此之外,它还能帮助我们得到多个搜索引擎的日志,便于我们对这些搜索引擎进行横向比较与评测.本文将介绍这种用
根据CNNIC的调查报告与北大天网实际搜集所提供的数据,本文对过去和未来国内网页数量作了一个估测.主要结果有:自1994年WWW在中国登录以来(截止2002年底),全国共消失网页数近4亿左右,新建网页数约有8.5亿左右;2004年初国内网页数量将超过10亿;国内网页数量每13个月翻一番.