论文部分内容阅读
随着人类知识的增长和网络应用的普及,以电子形式存在的自然语言信息的数量迅速膨胀。一方面,这种现象使人们可以方便快捷地获取信息;另一方面,如果没有合理的检索手段,人们将很难充分地利用这些数据。信息检索技术可以帮助人们有效地对大量文本数据进行检索。但是,由于目前尚未在自然语言理解领域取得突破,信息检索方法主要利用统计手段。它常常依赖于特定的经验参数,参数优化过程繁琐,且不利于实际应用。本文试图寻找一种较为稳定的文本检索算法和WEB信息检索方法,可以在不同的数据集和不同的检索任务中都取得较好的检索效果。同时,它是一种平滑函数,参数在一定范围内变动时不会对结果造成剧烈的影响。利用本文提出的检索算法和过程,在2002年文本检索会议(TREC)的Web Track中取得了满意的成绩,同时也在2001年TREC的数据集以及早期的数据集上取得了较好的效果。本文在TREC检索任务及其相关性判定的基础上,探讨了利用遗传算法改善检索质量和进行参数优化的可能性。在有相关性判定的遗传算法中,通过谨慎地选择遗传算子和遗传算法的形式以提高算法的全局和局部搜索能力,并避免早熟现象,取得了比手工调整结果更好的检索效果。在无相关性判定的遗传算法中,本文设计了投票算法以产生伪相关性信息,并在进化过程中调整目标函数的计算,取得了令人满意的结果。本文还把内容检索算法应用于P2P环境,利用检索算法对不同任务的稳定性,给出了接近单一数据库的性能水平。