论文部分内容阅读
随着Internet及其技术的高速发展,Web已经成为人们获取新闻信息的重要来源。Web信息提取和集成系统把网页中这些相关数据提取出来,集成到XML或者关系数据库中,提供结构化查询、数据挖掘和其他信息服务。提供集成后新闻网页的权重,支持新闻查询结果的有效排序,是方便用户浏览新闻的重要手段。然而,新闻网页信息的多样性使得系统很难从整体上考虑网页的重要性,本文提出的权重子系统弥补了系统在这方面的不足。它充分利用了系统从网页中提取出来的元数据信息,综合考虑了各个部分对决定新闻网页质量所起的作用,不但能够反映当前网页受用户关注的程度,还能通过增量的方式反映潜在的受用户关注的网页,从而满足不同用户的查询要求。新闻网页排序在理论和应用上都有重要的研究意义,是当前信息领域热点研究方向之一。
本文在分析相关研究网页和元组排序算法的基础上,设计了CNTW模型,该模型综合考虑了评论数量、网页相关性、来源网站及发布时间等因素,通过增量计算实时反映网页受用户关注的程度,充分利用了关系数据库成熟的技术,设计并实现了COMMIX原型系统的网页权重子系统,使系统的性能有了较大的提高。
此方法的创新之处包括:
设计了面向新闻网页权重计算模型CNTW。CNTW模型综合考虑了网页的评论数量,网页之间链接信息,网页提取结果中的元数据信息,包括发布时间和来源网站等,提高了网页权重设置的准确性。
设计了基于评论数量及其增量的网页评论权重计算方法。为了提高新出现的潜在的热点网页的权重,CNTW模型在计算网页评论权重时,不仅仅考虑网页相关的评论总量,而且考虑评论增量,保证了系统的及时性和可靠性。
设计了基于关系数据库的新闻网页链接权重的计算方法。CNTW在计算网页链接权重过程中,充分利用关系数据库的成熟技术,基于SQL实现网页链接权重的计算。并针对网页的时序特点,提出了增量计算的方法。
此方法已经在973国家重点基础研究发展规划课题的原型系统COMMIX的权重子系统中实现。实验证明,该方法能够准确、及时、可靠地对数据库中的网页添加权重,改善关系数据库对查询结果排序的局限性,不依赖于用户查询的内容,对于新闻网页具有很强的通用性,能有效地提高系统性能。