嵌入IE的搜索引擎集成工具的设计和实现

来源 :全国搜索引擎和网上信息挖掘学术讨论会 | 被引量 : 0次 | 上传用户：asdy008

【摘要】

：

搜索引擎已经成为人们上网必不可少的工具.随着IE 5.0对嵌入工具栏的支持,各个搜索引擎纷纷推出了自己工具栏,但这些功能相似的工具栏占据了大量的用户浏览区域,我们开发的"天网搜霸"有效地解决了这个问题.它集所有搜索工具栏于一身,实现了大部分搜索工具栏常用的功能,并提供了独特的搜索引擎分类功能.除此之外,它还能帮助我们得到多个搜索引擎的日志,便于我们对这些搜索引擎进行横向比较与评测.本文将介绍这种用

【作者】

：

韩近强陈华

【机构】

：

北京大学计算机科学与技术系

【出处】

：

全国搜索引擎和网上信息挖掘学术讨论会

【发表日期】

：

2003年3期

【关键词】

：

天网搜索引擎集成 ATL/WTL IE浏览器信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

Web文本检索中信息的分布特性与检索策略研究

本文通过对Web文本中信息分布特性的考察,重点研究了网页内容、网页内向链接结构、网页链接文字和URL四个部分的信息特征,并针对每种特性的信息分布,提出新的检索策略,是对传统信息检索模型的一种改进.文中提出主特征域和主特征空间的概念,在传统词的权重计算中引入主特征词信息因子,改进检索效果.并将网页的内向链接作为主要依据,对Web中的多主题文档进行分段检索.在TREC大规模测试数据集合上的实验表明,综

会议

Web信息检索检索模型主特征空间分段检索链接文字URL网页分布

文本分类中一种基于词类间概率分布的特征选择算法

特征选择在文本自动分类中扮演了比较关键的角色,本文在词的类间概率分布基础上,使用分布函数的区分度和相似度,将噪声词的去除和保留词的聚类相结合,提出了一种新的文本特征选择算法,实验结果表明,该算法具有较好的性能效果.

会议

文本分类特征提取类间分布词聚类区分度相似度

一种基于信息表征的图像检索方法

随着多媒体技术和因特网迅速发展,网上的图像资源日益丰富,图像检索成为重要的研究课题.本文提出了一种基于信息表征的图像检索方法,给出了图像的内容属性的表征方法以及利用改进的信息测度公式衡量图像相似性的方法.文中还给出了利用这种方法进行网上图像检索的初步实验结果.实验表明,这种图像检索方法对改善检索结果的相关性具有很好的效果.

会议

信息表征信息测度特征提取图像检索因特网

网页分类技术研究及系统实现

万维网上数据量的急剧增加,使得人工从网上获取有效的信息变得十分困难.网页分类技术成为解决这个矛盾的关键技术之一.本文介绍的网页分类系统(HCS)综合考虑了网页中的文本信息和结构信息,用Naive Bayes和SVM等分类算法实现了网页的多层次多类别的分类.文中结合网页分类中的网页表示、特征提取、分类算法等技术讨论了HCS的设计、实现及其特点.实验结果表明HCS所采用的方法是有效的.文章最后指出了改

会议

网页分类网页表示特征提取贝叶斯算法SVM支持向量机

SLMBSVMs-KNN:一种新的网页分类算法

本文首先提出了一种基于最小损失的支持向量机模型(SLMBSVMs),该模型中参数n反映了两类错误损失率的比值.随后,借助SLMBSVMs的特性构造两个SVM并将其与KNN相结合提出了一种SLMBSVM与KNN相结合的网页分类算法,实验证明,该算法是切实有效的,具有较高的精确度.

会议

支持向量机KNN分类器结构损失最小化网页分类

名人网页的相关度评价

本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了其中网页相关度评价的因素、算法和相应的检索结果.系统在北京大学天网搜索引擎的基础上,运用中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果的排序合理性,提高了名人网页检索服务的质量.

会议

相关度检索服务信息提取特征信息名人网页

基于HTML标签分析的网页加权索引策略

本文受传统信息检索中对文本结构信息挖掘的启发,针对Web页面特点,提出基于HTML标签处理的加权策略,用于Internet搜索引擎.引言简单介绍纯文本信息检索中的词加权方法;第二部分在纯文本文档的加权公式tfidf的基础上,结合HTML标签特性,给出一个新的索引词加权公式;实验部分用布尔模型和扩展布尔模型分别对这两种方法进行了比较.结果表明采用布尔模型时,后者在系统的查准率和查全率方面都要优于前者

会议

信息检索搜索引擎加权索引HTML标签信息挖掘

基于XML的Web信息提取

Internet高速发展,信息量书刊号膨胀.通常用户关心的可访问Web信息并不是存放在数据库系统中,而是在HTML页面中.HTML是一种显示描述语言,缺乏结构和元数据信息.通过浏览器,人可以非常直观地获取自己关心的知识和信息,但是计算机却难以理解这些HTML文档.这给信息集成、信息交换、Web知识挖掘、Web信皮的精确查询带来极大的不便.本文提出一种新的基于XML技术的Web信息提取算法.本算法分

会议

XMLHTML信息提取模式提取内容提取模板库特征匹配

特殊用途FTP搜索引擎的实现及优化

基于Nosey Parker的FTP搜索引擎的配置和优化特点,本文探讨了特殊用途FTP搜索引擎的系统原理和优化方向,为用户带来方便.

会议

FTP搜索引擎数据挖掘系统优化配置

规则路径表示下XML数据查询的动态规划方法

本文介绍了对有规则路径表示的XML数据查询的处理方法,包括传统的处理方法、改进的处理方法及相关的理论基础;然后提出了用动态规划算法对XML数据查询的处理进行优化,包括设计步骤和具体算法;最后对全文内容进行了简要总结.

会议

编码路径分解合并连接XML数据查询动态规则

嵌入IE的搜索引擎集成工具的设计和实现

与本文相关的学术论文