基于网页文本结构的网页去重

来源 :计算机应用 | 被引量 : 0次 | 上传用户:zdnumber
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征和网页文本自身的特点,提出了一种动态的网页去重方法。该方法通过将网页的正文表示成目录结构树的形式,实现了一种动态的特征提取算法和层次指纹的相似度计算算法。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。
其他文献
近年来,农地"三权分离"制度的提出分离了土地承包经营权,形成了农村土地所有权、承包权、经营权三权分离的态势,也同时促成了土地产权权能的重新规制。该研究在分析马克思土
提出了一种基于粒计算的数据分片模型及算法,该算法在优先考虑数据本地化的基础上,可动态调整全集划分的粗细,将全集划分的数据分片的数量调整到一个比较合理的状态,既能减少
<正>德国是一个杂志之国,德国人有着良好的阅读传统,人均每11天就要买一本杂志,人均每年大约要花50欧元(1欧元约合10元人民币)购买杂志,而德国人口总数是8000多万人,这就意味
SEC的证实储量定义是在美国上市的石油公司必须遵循的储量标准。该标准归纳起来着重于 10个方面 ,即合理的确定性、现行经济和操作条件、经济生产能力、流体界面和含油气面积
城乡一体化,是全面小康和现代化建设进程中解决“三农”问题的重要途径,是推动区域协调发展的有力支撑。物流一体化是实现城乡一体化的重要手段,但在我国物流发展过程中,城市
<正>近几年来,《辽沈晚报》的广告进入了一个高速、良性增长的黄金时期,在国内平面媒体市场出现大面积下滑这样一个整体不利的大环境下,《辽沈晚报》的国内综合排名从前几年
为了充分利用与保护野生蔬菜资源,对乌兰布和沙漠东缘的野生蔬菜资源及利用状况进行了调查。结果表明,乌兰布和沙漠东缘有野生蔬菜90种,分属于19科36属,其中菊科、百合科、黎
吐哈油田为了适应油田生产开发需求,在数字化站控管理系统方面采用物联网技术,物联网主要由感知层、网络层和应用层构成。采用了全新的站场管理系统RTU,利用网络微波通讯网、
针对低渗透油藏的渗流为非达西流且存在启动压力的特点,建立了低渗油藏垂直井单相原油渗流的流入动态关系式,并提出了有效地层压力的概念,同时推导了油气两相渗流的流入动态