网页相似度相关论文
随着信息时代的到来,规模庞大的信息不断在网络环境下产生。这样大规模、跨领域的信息包含在新产生的文本、图像、视频当中。面对......
伴随着互联网的飞速发展,网络中信息量成指数级增长,这使得用户获取信息变得越来越困难。为了更好的使用互联网中庞杂的资源,搜索......
学位
随着信息技术的飞速发展,人们日常的生活已离不开互联网。互联网给人们带来便捷的同时,由于多数网站不符合无障碍标准,使得残疾人......
21世纪是信息时代,计算机作为传递信息最方便的工具,就像一把双刃剑,在极大的改善人们生活方式的同时,也给犯罪分子的犯罪活动提供......
当前的搜索引擎中,存在大量的冗余搜索结果,且不能对搜索结果进行指导分类。本文提出一种基于密度的聚类算法,能够有效地对搜索结......
文中提出了一种社会标注系统自适应网页聚类算法,可以自适应找出类别数目k并完成聚类。将随机选择的15组网页语料进行聚类对比实验......
一、相关技术1.常规抽取方法介绍基于定义规则的信息抽取是指由用户根据待抽取信息节点特征.定义一种抽取规则(例如用正则表达式来描......
针对目前搜索引擎搜索结果中普遍存在大量重复网页的现象,提出了一种基于聚类算法DBSCAN的搜索结果优化算法。该算法选取源搜索结......
面对互联网中庞大的数据,怎样获取所需要的信息形成了研究所面对的一个难题。而Web数据挖掘这门学科的泛起为这个难题提出了解决方......
信息抽取技术属于人工智能的一个分支。使用信息抽取技术可以人性化地从网页中把人们需要的信息抽取出来。文中提出的信息抽取技术......
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的信息资源,网络爬虫的能力,索引数据库的大小,系统维护开销等,......
随着互联网技术的飞速发展,网络信息资源的数量呈现出数量级的递增。传统的搜索引擎由于不能获取即时更新的网络信息资源,在面对用户......