【摘 要】
:
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,人们能够获得的信息资源也日益丰富。网络信息的指数级膨胀给信息检索带来了
论文部分内容阅读
随着网络技术的迅速发展和互联网规模的不断扩大,互联网已经成为了全球最大、最广泛使用的信息库,人们能够获得的信息资源也日益丰富。网络信息的指数级膨胀给信息检索带来了巨大的困难,并且网络信息的易复制性使得网络中存在大量的重复信息,因此,发现并消除重复信息的研究工作具有重要意义。本文首先对传统的文本聚类方法和网页消重方法进行了研究,总结了它们各自的优缺点。并结合两种聚类算法的优点,提出Bisecting Kmeans++聚类算法,通过UCI数据集的测试评估,验证了它在聚类的最大凝聚度,正确率以及时间开销方面都比较理想。然后,本文通过Tidy将Web文档转换为格式良好的HTML文档,并利用DOM解析成树状结构。由于网页数据存在噪音的特点,文中提出最大正文块算法用于特定网页集合的噪声去除和正文块发现,并验证了它的可行性。并在经过最大正文块去噪后的网页集合对Bisecting Kmeans++算法和前N项高频词MD5值算法进行比对实验,发现它在查准率和查全率上有优势,但在时间开销上略逊一筹。在B2B门户网站信息抽取项目的公司信息整合模块中,以前的基于关键词和向量空间模型的消重算法已经无法胜任。面对实际应用中遇到的问题,文中提出了把实体识别方法应用到重复公司信息发现中,通过公司信息的整合,一方面消除了重复数据,节省了存储空间,提高了搜索引擎的用户体验;另一方面挖掘出了公司的详细信息,并为用于产品检索的质量排名算法提供了评分依据。
其他文献
无线传感器网络(Wireless Sensor Network,WSN)是由大量分布的不同规格和功能的具有感知、计算和通信能力的微型传感器节点通过自组织的方式构成的一个小范围的无线网络。大量
传统的文本分类方法大都采用了基于词频的统计方法来表征文本,基于关键词加权重的向量空间模型(Vector Space Model,VSM)对文本进行分类,普遍缺乏语义信息的导引,得到的文档
位姿参量是反映空间中物体运动状况的核心参数,对于军事、导航、航天、航空等众多领域的发展都至关重要。考虑到硬件设施、经济因素等一些实际条件的限制,利用光学设备拍摄的
随着P2P技术的发展,对P2P网络的管理成为了P2P领域的重要问题。如何减少网络带宽的消耗是P2P网络管理中研究的热点之一。P2P网络的管理涉及P2P网络的组织结构、节点间的通信
随着互联网高速发展,移动互联网浪潮的兴起,人们的生活越来越离不开互联网,人们在使用互联网进行互联的同时创造的数据量也是呈指数级增长,提高对海量数据的存储和快速访问的
蚁群优化(ACO)算法是一种新型的元启发式算法。蚁群优化算法具有较强的鲁棒性、优良的分布式计算机制、易于与其它方法结合等优点,可以用于解决各种组合优化问题,并已经成功
我国长江水域港口中的浦口、汉口、裕溪口和枝城,即“三口一枝”
一直是长江水域煤炭运输大港,多年来一直牢牢占据长江煤炭运输市场的半壁江山。随着长三角地区对煤炭需求
随着计算机网络技术的应用越来越广泛,各种网络中的应用服务也变得越来越复杂,其运行变得脆弱而不可靠,与网络服务相关的故障变得司空见惯。而目前在这些引起系统故障的因素
利用计算机模拟人的思维对图像中的内容进行识别,是计算机视觉领域重要的研究方向。根据是否针对特定对象,图像内容识别可分为物体分类和物体检测,它们都是图像分割、特征匹
血吸虫病是严重危害人民身体健康,阻碍社会经济发展的地方性传染病。钉螺作为血吸虫唯一的中间宿主,其地理分布决定了血吸虫的空间分布。为了掌握钉螺的分布,并对血吸虫病进