稳定的信息检索方法及其在分布式环境下的应用

来源 :中国科学院研究生院(计算技术研究所) | 被引量 : 9次 | 上传用户:guomenling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类知识的增长和网络应用的普及,以电子形式存在的自然语言信息的数量迅速膨胀。一方面,这种现象使人们可以方便快捷地获取信息;另一方面,如果没有合理的检索手段,人们将很难充分地利用这些数据。信息检索技术可以帮助人们有效地对大量文本数据进行检索。但是,由于目前尚未在自然语言理解领域取得突破,信息检索方法主要利用统计手段。它常常依赖于特定的经验参数,参数优化过程繁琐,且不利于实际应用。本文试图寻找一种较为稳定的文本检索算法和WEB信息检索方法,可以在不同的数据集和不同的检索任务中都取得较好的检索效果。同时,它是一种平滑函数,参数在一定范围内变动时不会对结果造成剧烈的影响。利用本文提出的检索算法和过程,在2002年文本检索会议(TREC)的Web Track中取得了满意的成绩,同时也在2001年TREC的数据集以及早期的数据集上取得了较好的效果。本文在TREC检索任务及其相关性判定的基础上,探讨了利用遗传算法改善检索质量和进行参数优化的可能性。在有相关性判定的遗传算法中,通过谨慎地选择遗传算子和遗传算法的形式以提高算法的全局和局部搜索能力,并避免早熟现象,取得了比手工调整结果更好的检索效果。在无相关性判定的遗传算法中,本文设计了投票算法以产生伪相关性信息,并在进化过程中调整目标函数的计算,取得了令人满意的结果。本文还把内容检索算法应用于P2P环境,利用检索算法对不同任务的稳定性,给出了接近单一数据库的性能水平。
其他文献
英国人查理·弗雷德里克·沃尔特,在这里开设了第一家服装店。第二次世界大战结束后,有一家叫做奇奥的公司,突发奇想,利用回收的旧军装办起了服装市场,而且从此发迹,
<正> 众所周知,在大自然中,许多动物采取冬眠这种绝妙的办法来度过严酷的环境,延缓老化速度,减慢疾病进程,如哺乳动物美洲松鼠等。可是,人类是否也能冬眠呢?如果能解开美洲松
<正> 我站在一个锯齿形的山脊上,看着下面的&#39;红石&#39;山谷,这里是阿拉斯加西北部。像大多数的夏日一样,今天清晨也是天空晴朗,万里无云;但现在,突然有一大片乌云从东方
复杂机电(CEM,Complex Elecro-Mechanical)产品属于离散制造类型的产品,相当多的复杂机电产品在设计和制造方面具有相当的难度,是目前国际制造业竞争的焦点。竞争的目标是使得设
澳洲农场用红葡萄酒喂牛改善肉质日本的神户牛肉软嫩可口,香而不腻,堪称美味,据说这种牛是喝着啤酒、听着音乐长大的。最近,一家澳大利亚养殖公司也开始效仿,不过他们用的是红葡萄
10月30日至31日,农业部在北京召开全国动物标识及疫病可追溯体系建设现场会。农业部副部长尹成杰出席会议并讲话。国家首席兽医师、农业部兽医局局长贾幼陵主持会议并通报了有
本文结合ISO9000质量体系对供应链环境下的供应商管理进行了比较深入的分析,为企业的供应商管理提供了一定的参考。
货币资金是企业在运营管理中最重要的因素之一,同时也是企业资产中的重要组成部分。本文通过对企业的货币资金内部控制制度现状的介绍,了解和发现货币资金内部控制存在的缺陷
当北京市政府的网站"首都之窗"开通时,"政府上网"一度成为京城的热点话题,开通10多天就收到了100多封来自普通群众的电子邮件。轻点鼠标,就可以方便地使用政府提供的各种信息
泰森食品公司宣布,该公司在2006财政年第四季度的亏损超出了预计水平,但是,位于美国阿肯色州斯普林顿的该公司称,在公布该季结果时,公司能够重新赢利。