COMMIX系统中基于数据库的新闻网页权重子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:huangting198198225
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet及其技术的高速发展,Web已经成为人们获取新闻信息的重要来源。Web信息提取和集成系统把网页中这些相关数据提取出来,集成到XML或者关系数据库中,提供结构化查询、数据挖掘和其他信息服务。提供集成后新闻网页的权重,支持新闻查询结果的有效排序,是方便用户浏览新闻的重要手段。然而,新闻网页信息的多样性使得系统很难从整体上考虑网页的重要性,本文提出的权重子系统弥补了系统在这方面的不足。它充分利用了系统从网页中提取出来的元数据信息,综合考虑了各个部分对决定新闻网页质量所起的作用,不但能够反映当前网页受用户关注的程度,还能通过增量的方式反映潜在的受用户关注的网页,从而满足不同用户的查询要求。新闻网页排序在理论和应用上都有重要的研究意义,是当前信息领域热点研究方向之一。 本文在分析相关研究网页和元组排序算法的基础上,设计了CNTW模型,该模型综合考虑了评论数量、网页相关性、来源网站及发布时间等因素,通过增量计算实时反映网页受用户关注的程度,充分利用了关系数据库成熟的技术,设计并实现了COMMIX原型系统的网页权重子系统,使系统的性能有了较大的提高。 此方法的创新之处包括: 设计了面向新闻网页权重计算模型CNTW。CNTW模型综合考虑了网页的评论数量,网页之间链接信息,网页提取结果中的元数据信息,包括发布时间和来源网站等,提高了网页权重设置的准确性。 设计了基于评论数量及其增量的网页评论权重计算方法。为了提高新出现的潜在的热点网页的权重,CNTW模型在计算网页评论权重时,不仅仅考虑网页相关的评论总量,而且考虑评论增量,保证了系统的及时性和可靠性。 设计了基于关系数据库的新闻网页链接权重的计算方法。CNTW在计算网页链接权重过程中,充分利用关系数据库的成熟技术,基于SQL实现网页链接权重的计算。并针对网页的时序特点,提出了增量计算的方法。 此方法已经在973国家重点基础研究发展规划课题的原型系统COMMIX的权重子系统中实现。实验证明,该方法能够准确、及时、可靠地对数据库中的网页添加权重,改善关系数据库对查询结果排序的局限性,不依赖于用户查询的内容,对于新闻网页具有很强的通用性,能有效地提高系统性能。
其他文献
随着网络技术的发展和成熟以及电子商务技术的推动,基于XML技术的WEB服务思想随之诞生。近几年,Web服务得到了深入和广泛的应用,是否能有效地实施和实现安全机制就成了Web服务发
软件开发过程中,调试是非常重要的一个步骤,随着软件复杂度的不断提高,调试工作的难度不断提高,各种调试工具也应运而生。由于面向应用程序与面向内核的调试需求有一定的差别,因此
随着Internet不断发展,网络带宽不断增加,网络行为不断复杂化,原有的网络监测手段无法适应现代网络的高速率与高带宽,无法满足现代网络管理的需求。流量数据的采集是监测网络行为
M.Alekhnovich等人最近提出了一种覆盖了贪心法、回溯法和简单动态规划法的算法模型,称为BT模型,证明了一些NP完全问题的精确算法和近似算法在这个模型下的指数时间下界(M.Alek
随着大数据时代的到来,在过去的十几年间,互联网、云计算、大数据等方面的技术飞速发展。据统计,全球产生的信息量正以每天2.5EB的速度增长。在此背景之下,数据中心技术迅速发展
由于中间件技术在屏蔽异构性问题和底层基础技术细节方面优势显著,因此中间件技术在企业IT环境内外得到了广泛的应用。消息中间件是中间件的一种,最初是用来解决企业内部异构的
集装箱自动引导车(AGV)是工作在集装箱码头的自动化搬运设备。现有的集装箱AGV大多是采用电磁感应的引导方法,它需要在地面埋设用于产生电磁场的电缆,因此地面施工量大、改道不
嵌入式操作系统电源管理的目标是根据系统运行时任务特征和性能要求,利用硬件提供的控制能耗的措施,控制硬件的能耗状态,从而在保证任务的性能的前提下,最大限度地节省电能的消耗
客户流失分析是移动数据仓库中数据挖掘模型建设的重要模型之一,其主要目的是对移动客户基本信息和过去一段时间内的历史呼叫记录进行挖掘分析,提取出客户离网倾向的信息,这样移
开发人员对软件的约束性需求的重视程度一直低于功能性需求。随着软件规模与复杂性的增加,以及网络环境带来的运行环境复杂化,使得软件在运行时刻出错的几率大大增加。因此对软