一种基于段落的分段签名近似镜像新算法

来源 :情报杂志 | 被引量 : 0次 | 上传用户:asfdasdfasd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前在WWW上有众多的近似镜像Web页面,如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一.在分析现有近似镜像方法的基础上,提出了一种以自然段为标准进行分段的近似镜像算法,该算法在对网页进行特征值计算时按照自然段落进行分块.实验结果表明,该算法对于海量页面有着一定的优势.此外,所提出的算法不仅可用于消除重复页面,还可以作为页面排序算法的一个参考指标.
其他文献
对31例重型肝炎患者行胳部B超探查,发现肝体积缩小病例占58.1%,肝静脉(LV)显示不清占58.1%,门静脉(PV)内径正常占58.1%,胆囊壁异常占87.1%,脾脏正常或轻度肿大占77.4%,出现腹水占51.6%。由于肝硬化
分析了当前网上搜索引擎的现状及存在的问题,设计和实现了一个基于本体智能搜索引擎系统模型,讨论了该系统结构中各个功能模块的功能和相互之间的关系。利用本体规范用户查询语
介绍全息术在测定悬臂梁受力变形位移量中的应用。
随着我国私家车数量的不断增长与停车位的相对紧张,很多车辆被迫长时间暴露在太阳光之下,随之产生了一系列问题。为了避免太阳光对车辆造成的损害及保障车主人身健康,可以利
研究基于本体的信息资源组织算法,通过将该算法运用到检索系统中,以提高检索结果的查准率。研究的内容主要包括本体的定量分析;基于本体的信息资源组织算法;算法实验分析。
首先阐述了虚拟机械臂的概念。其次利用虚拟机械臂技术和ADAMS软件分析空间机械臂的工作空间、逆运动学问题。最后利用ADAMS/Controls模块将ADAMS的动力学模型与Mat-lab的控
随着国内经济增速逐渐放缓,企业的经营成本逐渐增加,虽然我国颁布了多项政策降低税负减轻企业负担,然而与国外的企业相比,我国企业税收负担较重,所以对于国内企业,如何通过税
为探索哮喘在赣南地区的发病情况,收集了1986-1995年二十个县(市)级以上医院住院哮喘病人发病资料,发现赣南地区哮喘的住院患病率起伏在5.01/10万-13.23/10万之间,年平均为9.12/10万,占同期
目的探讨绝经后2型糖尿病患者亚临床甲状腺功能减退症(SCH)与骨质疏松症的相关性。方法选取绝经后2型糖尿病患者193例,其中甲状腺功能正常者128例(NTF组),SCH组65例。比较两组患者
随着房地产行业的不断发展,其对高技能人才的需求不断增加。房地产专业技能比赛可以暴露出学生知识或技能的疏漏,利于学校或教师转变教学思维,创新教学方法,优化课程设置,提