基于词间相关性分析的查询结果重排算法

来源 :全国搜索引擎和网上信息挖掘学术讨论会 | 被引量 : 0次 | 上传用户：fengyaoying

【摘要】

：

传统的检索系统,认为文档和查询之间的相关性仅仅取决于文档和查询之间的共同出现的词,既不考虑那些在查询中出现而不在文档中出现的词,也不考虑那些在文档中出现而不在查询中出现的词对二者之间相关性的影响.本文结合Internet搜索引擎的检索对象篇幅较小、主题单一的特点,提出"主题关键词"这一新的概念;在此概念的基础上,利用词间相关性,给出一个切实可行的对检索结果进行重新排序的算法.

【作者】

：

金澎刘毅刘伟

【机构】

：

乐山师范学院中原工学院

【出处】

：

全国搜索引擎和网上信息挖掘学术讨论会

【发表日期】

：

2003年3期

【关键词】

：

信息检索 Internet搜索引擎词间相关性主题关键字重新排序

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

一种基于信息表征的图像检索方法

随着多媒体技术和因特网迅速发展,网上的图像资源日益丰富,图像检索成为重要的研究课题.本文提出了一种基于信息表征的图像检索方法,给出了图像的内容属性的表征方法以及利用改进的信息测度公式衡量图像相似性的方法.文中还给出了利用这种方法进行网上图像检索的初步实验结果.实验表明,这种图像检索方法对改善检索结果的相关性具有很好的效果.

会议

信息表征信息测度特征提取图像检索因特网

网页分类技术研究及系统实现

万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和SVM等分类算法实现了网页的多层次多类别的分类.文中结合网页分类中的网页表示、特征提取、分类算法等技术讨论了HCS的设计、实现及其特点.实验结果表明HCS所采用的方法是有效的.文章最后指出了改

会议

网页分类网页表示特征提取贝叶斯算法SVM支持向量机

SLMBSVMs-KNN:一种新的网页分类算法

本文首先提出了一种基于最小损失的支持向量机模型(SLMBSVMs),该模型中参数n反映了两类错误损失率的比值.随后,借助SLMBSVMs的特性构造两个SVM并将其与KNN相结合提出了一种SLMBSVM与KNN相结合的网页分类算法,实验证明,该算法是切实有效的,具有较高的精确度.

会议

支持向量机KNN分类器结构损失最小化网页分类

名人网页的相关度评价

本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果.系统在北京大学天网搜索引擎的基础上,运用中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果的排序合理性,提高了名人网页检索服务的质量.

会议

相关度检索服务信息提取特征信息名人网页

基于HTML标签分析的网页加权索引策略

本文受传统信息检索中对文本结构信息挖掘的启发,针对Web页面特点,提出基于HTML标签处理的加权策略,用于Internet搜索引擎.引言简单介绍纯文本信息检索中的词加权方法;第二部分在纯文本文档的加权公式tfidf的基础上,结合HTML标签特性,给出一个新的索引词加权公式;实验部分用布尔模型和扩展布尔模型分别对这两种方法进行了比较.结果表明采用布尔模型时,后者在系统的查准率和查全率方面都要优于前者

会议

信息检索搜索引擎加权索引HTML标签信息挖掘

基于XML的Web信息提取

Internet高速发展,信息量书刊号膨胀.通常用户关心的可访问Web信息并不是存放在数据库系统中,而是在HTML页面中.HTML是一种显示描述语言,缺乏结构和元数据信息.通过浏览器,人可以非常直观地获取自己关心的知识和信息,但是计算机却难以理解这些HTML文档.这给信息集成、信息交换、Web知识挖掘、Web信皮的精确查询带来极大的不便.本文提出一种新的基于XML技术的Web信息提取算法.本算法分

会议

XMLHTML信息提取模式提取内容提取模板库特征匹配

特殊用途FTP搜索引擎的实现及优化

基于Nosey Parker的FTP搜索引擎的配置和优化特点,本文探讨了特殊用途FTP搜索引擎的系统原理和优化方向,为用户带来方便.

会议

FTP搜索引擎数据挖掘系统优化配置

规则路径表示下XML数据查询的动态规划方法

本文介绍了对有规则路径表示的XML数据查询的处理方法,包括传统的处理方法、改进的处理方法及相关的理论基础;然后提出了用动态规划算法对XML数据查询的处理进行优化,包括设计步骤和具体算法;最后对全文内容进行了简要总结.

会议

编码路径分解合并连接XML数据查询动态规则

嵌入IE的搜索引擎集成工具的设计和实现

搜索引擎已经成为人们上网必不可少的工具.随着IE 5.0对嵌入工具栏的支持,各个搜索引擎纷纷推出了自己工具栏,但这些功能相似的工具栏占据了大量的用户浏览区域,我们开发的"天网搜霸"有效地解决了这个问题.它集所有搜索工具栏于一身,实现了大部分搜索工具栏常用的功能,并提供了独特的搜索引擎分类功能.除此之外,它还能帮助我们得到多个搜索引擎的日志,便于我们对这些搜索引擎进行横向比较与评测.本文将介绍这种用

会议

天网搜索引擎集成ATL/WTLIE浏览器信息检索

国内网页数量的预测

根据CNNIC的调查报告与北大天网实际搜集所提供的数据,本文对过去和未来国内网页数量作了一个估测.主要结果有:自1994年WWW在中国登录以来(截止2002年底),全国共消失网页数近4亿左右,新建网页数约有8.5亿左右;2004年初国内网页数量将超过10亿;国内网页数量每13个月翻一番.

会议

网页数量指数增长模型预测数据准备

基于词间相关性分析的查询结果重排算法

与本文相关的学术论文