论文部分内容阅读
随着Internet的迅速发展,人们获取信息的方式正发生着很大变化.基于Web信息检索系统已成为获取Internet上有用信息的一种非常有效的工具.然而目前基于Web信息检索系统普遍存在着检索响应速度较慢,检索结果质量较差,信息存储困难,信息抽取困难等问题,文中着重对以上存在的问题进行了深入的研究.主要工作包括以下几个方面:1.针对现有的一些信息检索系统中存在的这些问题,文中提出了一个基于Web的分布式信息检索系统模型WEBIR,特别是对WEBIR系统中的Web服务器提出了一系列新的管理策略,有效地解决了上述问题,从而可以更快速地处理用户的查询请求.2.我们通过对查询请求进行预处理,在此基础上,再对搜索所产生的结果进行进一步处理,从而既显著提高了查准率和查全率,又提高了搜索的效率.在查询预处理方面,文中提出了一种新的查询预处理方法Pretreatment.在对查询预处理所返回的搜索结果集进行进一步的处理方面,文中提出了一种新的排序方法Ranking.较好地解决了现有的一些排序方法普遍存在的问题.3.文中提出了一种从Web文档,特别是从HTML文档中抽取信息的新方法.4.根据Web上数据的特点,文中提出了利用多agent技术对Web上的信息进行管理的系统模型Datamanagement.5.综合前人的成果和自己所提出的新成果,我们设计并实现了两个信息检索系统AIRS和PIRS.