基于Web的文本信息检索算法的研究

被引量 : 0次 | 上传用户:nihaohaoya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网上文本数量成指数级的数目增长,如何有效检索这些海量信息成为当前研究的重要课题。文本信息检索(Information Retrieval,IR)是指从大量文档集合中找到与给定的查询请求相关的、恰当数目的文档子集。文本信息检索是处理海量文本的重要手段。该文主要是基于Web的文本信息检索算法的研究。 首先,介绍了信息检索的发展概况和相关技术,分析了基于内容的信息检索算法、基于超链分析的检索算法以及融合的信息检索算法。针对内容检索方法查全率不高、超链分析检索方法容易产生主题漂移的特点,利用了一种基于超链和标记文本内容的信息检索算法。该算法利用网页之间的链接关系和标记文本内容信息来计算网页的综合权值,在此基础上将检索结果进行排序输出。实验结果表明,该计算方法具有较高的查全率和查准率。 其次,为了提高检索的查准率和降低检索时间,在传统向量空间模型的基础上,该文对传统的向量空间模型进行改进来计算网页内容信息之间的相似度,同时在进行建立索引时,文中还利用了网页去噪技术和算法,去除一些和主题信息无关或无用的信息,提高了建立索引的效率、质量和检索的速度,大大减少了存储空间。利用改进的向量空间模型算法进行相似度计算,也避免了向量空间模型算法中时间复杂度过大,查准率不高的缺点。实验结果也表明,此算法具有更快的查询速度和更高的查准率。 最后,该文在传统信息检索算法的基础上,利用所改进算法,实现了一个基于Web的文本信息检索系统。
其他文献
对于特定的应用系统,为完成某些特殊功能如文件加密、文件压缩以及文件保护等功能,既可以采用编制特定应用程序的方式,也可以在操作系统层面进行修改或建立新的文件系统方式
目的评价鼻炎清口服液治疗儿童急性鼻窦炎的临床效果。方法将60例急性鼻窦炎患儿随机按数字表法分为对照组和治疗组。对照组给予抗生素及丙酸氟替卡松鼻喷雾剂,并配合理疗等
目的探讨大剂量氨溴索注射液治疗儿童肺炎支原体感染后咳嗽的临床效果及安全性。方法将2009年9月~2014年3月在本院就诊的84例支原体肺炎后咳嗽患儿随机分为治疗组和对照组各4
布鲁氏菌病是一种人畜共患病,生物分型较多,寄生宿主广泛,传播途径多种。进入2000年后,我国患病人数逐年增多,波及28个省市区,给社会和家庭带来沉重负担。发病原因较多,主要
<正> 玻璃的历史源远流长,传说中玻璃的形成有一段有趣的叙述。它是这样描述玻璃的形成的。商队在经过沙漠时,中途休息,遂取干枯的沙漠植物生火做饭,临行前以沙埋之,第二日,
企业资源计划(ERP)是当今企业界尤其是制造业的一大热点,在西方企业的实施取得了令人瞩目的成绩,但在我国的应用效果却不尽人意。而当前的市场环境又对制造业企业成功实施ERP
随着中国经济的迅速增长,居民收入不断提高,可选择的旅游目的地持续增加,中国的出境规模也在不断的放量上攻,继2002年之后再次超越日本成为亚洲第一大出境客源国。徐州中国国
行政撤销是指原行政机关或其上级行政机关依法定职权或依申请按一定程序作出的使违法或不当的行政行为丧失法律效力的意思表示。这一行为是行政机关行使职权的行为。从这个角
桥本甲状腺炎(HT)是一种自身免疫性疾病,其特点为甲状腺大,腺体内有弥散性淋巴细胞和浆细胞浸润,间质纤维化和腺体萎缩伴腺泡的嗜酸性退行性变,临床以甲状腺功能减退为特征。
<正>引言:后工业时代的产业地段面临关停并转。而2.5产业之生产性服务业的兴起使产业用地换发新的生命力。2.5产业开发通过产业结构重组、多元业态组合、多样性空间塑造、恰