长句提取相关论文
研究表明,近似镜像网页数占总网页数的比例高达29%,而完全相同的页面大约占22%。根据CNNIC 2005年7月发布的统计报告,用户在回答“......
随着信息技术的飞速发展,互联网上的网页数据呈现出爆炸式的增长态势,大量近似镜像网页的存在已经成为人们快速获取有效讯息的最大......
针对网页重复的特点和网页正文的结构特征,提出了一种动态的、层次的、鲁棒性强的网页去重算法。该方法通过将网页正文表示成正文......