基于超链接分析技术的排序算法的研究高国顺

来源 :中国校外教育·综合(上旬) | 被引量 : 0次 | 上传用户:geng20516136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  讨论页面信息检索中基于超链接分析技术的排序算法及其优化。文章在分析传统排序算法优缺点的基础上,引入了优化的排序算法:基于超链接分析技术的排序算法。该算法在相同查全率的条件下具有更高的查准率。pagerank超链接信息检索点击率信息检索通常可分成两类:一类是像Google、Baidu等搜索引擎,根据用户输入的信息,在Internet上搜索相关的网站链接,这种检索方式通常要用户进一步浏览才能找到需要的信息。另一类检索就是直接返回信息给用户。用户只需输入关键词,就能直接得到需要的信息而不需要遍历很多网站。本文主要是对第一种方式进行阐述:分析信息检索的性能、优化网页排序的算法。本文重点不在讨论单个网页的权值,而是考虑整个网站或者网站中重要页面的PageRank值。一、检索性能公式化分析搜索引擎系统可以搜索Internet上所有的页面,所以查全率是可以保证的。经过对查准率相关分析得出,一个搜索引擎要具有好的查准率,这和搜索相关页面的页面等级(PageRank)有着重要的关系。传统的网页排序算法只考虑了网页间的链接信息和网页自身的内容,忽略了返回结果集合中网页所属的网站的性能和搜索者的操作对页面值的影响。二、pagerank算法原理PageRank的原理类似于论文中的引用机制:谁的论文被引用次数多,谁就是权威。在互联网上,链接就相当于“引用”,在B网页中链接了A,相当于B在谈话时提到了A,如果在C、D、E、F中都链接了A,那么说明A网页是最重要的,A网页的PageRank值也就最高。其中:系数为一个大于0,小于1的数。一般设置为0.85。网页1、网页2至网页N表示所有链接指向A的网页。三、网页排序算法的改进网页之间的链接和网页内容是传统网页排序的主要依据,这削减了信息检索者交互的作用。PageRank算法主要缺陷是将PageRank值在所有的出链接上进行平均分配,没有很好地考虑网页本身的特征和搜索者的相关操作。很容易受到无关链接的影响,产生主题漂移。下面结合已有的页面算法,提出了一个简单的优化算法,改进PageRank算法,该算法在平均分配的基础之上,考虑了网站的相关的性能和用户的点击率对页面等级的影响,并对其性能进行分析。1.优化网站性能,反馈用户信息页面载入时间是指从用户发出指令到页面被显示所用的时间,这是影响网站性能最重要的因素之一。页面载入时间过长容易招致访问者的不满,访问者可能中断操作或离开网站。在网络非繁忙时间(23:00~8:00)对目前常用的中文搜索引擎Google和百度进行15个随机选取的关键词,每个关键词前100个检索结果进行了测试,发现网页不可达的情况达5~13%,另有1~2%的网站的页面载入时间超过了8s。研究表明,在较慢的网络传输速度(小于3kb/s)或上网高峰时间,载入时间超过8s的网页将会大大增加。对页面x载入时间可以用t(x)来加以区别和标记。如果搜索引擎返回较多的载入时间过长的页面,会在一定程度上影响其用户服务质量(QOS)。这样会影响用户访问页面的次数,减少了页面的点击率,从而会减少PageRank值。在搜索引擎中,用户的参与也很重要。用户的选择,即搜索引擎用户对返回结果的每一次点击,实际上就是对相应网页的一次选择。用户的选择应该作为评价网页重要性的一个因素。针对这一问题,本文提出了改进的算法,依照用户的选择来调整搜索返回结果集的排序。Pagerank算法(以及其他的基于链接分析的网页处理技术)在计算时所使用的信息仅限于链接结构(或者还有文本内容),这些信息更新的周期较长,忽略了互联网上每时每刻都在变化的大量的动态信息,这些信息的捕捉和利用十分困难,但是,如果成功地利用这些信息,必将获得很大的收益。在搜索中,用户的参与很重要,因此,将用户选择作为评价网页重要性的一个重要因素是必要的。为了让用户比较关心的页面(经常点击的页面)在搜索引擎返回结果集中有比较好的排名,在服务器端把用户的每一次点击的网址都记录下来,存入数据库,在计算pagerank时考虑用户的点击次数占总点击次数的百分比M,即用户对这个网页的推荐度。对经常访问的页面M较大,反之M较小。加入M的值,能够提高信息检索的查准率(对于特殊的页面可以加上相应的调整值;对于为了提高页面的点击率恶意刷新页面的,要减去一个调整值)。对于网站的本身性能,可以根据搜索引擎统计的结果或专业网站性能评测机构的结果,对PageRank值或Authority值乘以一个网站性能因子p(x)进行修正。对于性能好的网站p(x)较大,对于性能差的网站p(x)较小。对网站的平均页面载入时间,搜索引擎可以根据自己的数据库进行统计,也可以借助专门的网站性能评测机构的评测结果。2.性能分析由于时间和实验条件的限制,检验算法的效果只能在WEB构造图的一个小的子图上进行。本实验包括两个部分:第一部分是考虑搜索引擎的通用排序因素的实验结果,第二部分是结合用户的点击率和网站本身性能等因素的实验结果。本文利用TRS提供的链接数据库和硬件搭建一个实验平台,实验完成于一台具有Intel 1.8GHz的CPU,1G的内存,80G硬盘的PC机上,采用的操作系统是Windows Server 2003系统。本文所用到的实验数据取自TRS的采集工具在2008年5月份采集到的。对实验数据的分析:根据上面的测试结果,可以看出, 该算法能够及时的进行数据的采集和索引的更新, 查准率比较高, 能够满足用户的需求。在增加网站的相关性能和用户的点击率后,检索结果的数量变化很小,但是排序效果有明显的改善,排序在前的文档内容与流行的主题很相关。该排序算法在目前阶段是合理和可行的。四、算法评价及其前景展望搜索引擎的技术改进和优化都直接反应到搜索结果的排序上。查准率和检索速度在一定程度得到了提高,使一些链接比较少的页面的pagerank有了提高,达到了交互的目的。网页排序技术给搜索引擎用户带来了极大的方便,提高了用户对查询结果的满意度。可是目前的排序技术仍然存在两大不足:1.没有真正解决相关性仅仅通过链接、锚文本、版式信息等表面特征,不能真正判断搜索词和文章的相关性,另外,有些网页中没有出现搜索词,但网页的内容却与搜索词相关,一般搜索引擎无法搜到这些网页。2.搜索结果单一化在搜索引擎上,任何人搜索同一个词,搜索引擎所给的都是一样的结果,这样明显不能满足所有访问者的要求。
  参考文献:
  [1]何其俊.Internet上的信息提取[J].中山大学,2005,(04):22
  [2]杨思洛.搜索引擎的排序技术研究[J].现代图书情报技术,2005.43-47.
其他文献
加筋板的研究由来已久,板上加筋(单向),并且使筋通过激励点,可以有效地提高板的固有频率,从而有效地降低板的声辐射。由于筋的几何形状种类繁多,究竟那一种几何形状的筋抗振、降噪和
针对2D12往复式压缩机气阀的工作特点,提取吸气阀与排气阀均关闭时的压缩过程的局域信号。以此为研究对象,应用模态参数识别与小波包分析相结合的方法对气阀进行故障诊断,最
随着社会竞争的日趋激烈,普通高校学生设立的“双证书”人才培养模式对如何缩短学生与用人单位之间衔接时间具有重要意义。探讨普通高校如何推行“双证书”制度,同时补充和完善应用型人才的培养模式,并对其进行推广提出了相对应的方法和基本途径。  高等院校双证书人才培养模式“双证书”人才培养模式,是指通过在学校的系统学习且不延长学制的情况下,学生毕业后获得毕业证书和职业资格证书两种证书,将学历教育和职业技能教育
我国正处在发展的关键时期,国运兴衰,系于教育,教育要发展,根本还是要靠改革。在实施新课程改革并推进素质教育的过程中,山东省潍坊市始终把如何构建优质高效课堂作为研究对象,在遵
2008年10月,我国图书馆学会发布了《图书馆服务宣言》,宣言涵盖了“以人为本”“信息公平”“服务平等”及“利益全民”的图书馆公共服务的价值理念,其推行与管理实施对我国图书馆事业的发展有着重要意义。  《图书馆服务宣言》图书馆公共服务理念管理实施2008年10月,我国的图书馆学会正式发布了《图书馆服务宣言》,这是我国图书馆与国际现代图书馆理念与图书馆核心价值观接轨的表现,也是全面推行与实践图书馆公
新词新语的产生是各种语言的普遍现象。对待新词新语这种流行文化现象的正确态度应该是宽容看待,充分认识,积极吸纳,引导规范。明确了新词新语的概念,分析了新词新语的来源和
混和系统是既具有离散状态迁移又具有连续状态变化的动态系统,工程控制理论和计算机验证技术的交叉渗透推动了混和系统论的发展,其涉及到对具有混和特性的系统的建模、分析以
<正> 据美刊报道,美国政府于10月份宣布在前几届政府的白宫科学委员会的基础上重建了一个“美国总统科学技术顾问委员会”(PCAST)。这是美国联邦政府目前最高的科学技术咨询
<正> 激光加工是衡量一个国家工业生产效率及其发达程度的重要标志。在美、日、西欧发达国家已形成了激光加工产业,建成了激光加工业体系,每年都以一定速度增长。 据Arnold M
本文简要地回顾了美国关于技术转让政策的发展情况,并介绍了对国家实验室进行的一项调查的主要结果。这项调查考察了衡量技术转让效果的两类指标,并得出了如下的基本结论:①