一种基于同层网页相似性去除网页噪音的方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:bxybxy0531
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一个普通的Web页面可以被分成信息块和噪音块两部分。基于Web信息检索的第1步就是过滤掉网页中的噪音块。通过网页的特性可以看出,同层网页大多具有相似的显示风格和噪音块。在VIPS算法的基础上,该文提出一种基于同层网页相似性的匹配算法,这个算法可以被用来过滤网页中的噪音块。通过实验检测,算法可以达到95%以上的准确率。
其他文献
近年来,妇产科手术致泌尿道损伤有所增加[1],我院2000年1月~2003年12月实施妇科手术3 360例,发生膀胱、输尿管损伤9例,发生率0.27%.现回顾分析损伤原因,旨在吸取经验教训,提高
针对广泛使用的Windows平台,建立了一个基于主机的入侵检测实验系统。在深入分析Windows主机的安全特性的基础上,利用安全日志、系统日志、性能日志及文件完整性校验、注册表等
提出一种采用海冰和海水温度观测数据来估计海冰厚度的辨识方法,避免了因使用厚度数据所带来的种种局限性.首先建立一个拟线性海冰-海水热力学系统,得到了系统解的存在唯一性
精确罚函数方法是求解优化问题的一类经典方法,传统的精确罚函数不可能既是简单的又是光滑的,这里简单的是指罚函数中不包含目标函数和约束函数的梯度信息.针对等式约束问题提出
在Crossbar交换单元的交叉节点加少量缓存的组合输入交叉节点排队(CICQ)结构,具有调度算法简单、性能优良、适于高速大容量路由器实现的特点。在总结现有研究成果的基础上,提出了
【正】 根据越来越多的证据,过敏性和内源性支气管哮喘最近已经被定义为慢性持续性的炎性疾病。一致的意见认为哮喘不仅仅等同于支气管痉挛,并且,缺乏可逆性的气道阻塞也不能
先通过PCA特征脸或插值降维,并利用Fisher鉴别矢量集,获得人脸鉴别特征;然后采用常见距离分类器及其组合形式进行识别分析,分类器组合使用多数投票规则和最大值规则等;最后对计算结果进行分析。该文研究思路和方法简洁,结果令人满意,对基于生物特征鉴别分析的工程应用具有较大价值。
病例男,60岁.因头面部车祸伤后复视20余天、左眼球突出1天来诊.既往无眼病,视力好.受伤当时有一过性昏迷,左眼渐觉肿胀、双眼复视,但视力尚好,左耳可闻及"隆隆"音.
自塔中Ⅰ号坡折带上奥陶统良里塔格组发现生物礁滩作为重要储集层后,有关礁的形态和规模一直存在较大的争议。本研究解析该地区礁的古生物组合、古生态结构和沉积环境,以此为
介绍了高层系统结构(HLA)系统的标准开发过程模型FEDEP和两种基于FEDEP的校核、验证和确认(VV&A)过程模型,分析了二者的优缺点。在简单分析模型驱动架构(MDA)架构之后,论述了基于模