以标签为导向的网页摘要技术

来源 :浙江大学计算机科学与技术学院 浙江大学 | 被引量 : 0次 | 上传用户:jn116600
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0技术的广泛应用,越来越多的网页文档上留下了用户给出的标签信息。这些附加在网页文档上的用户标签信息是对网页主旨内容的一个高度概括。而目前绝大多数的网页文档摘要技术在生成摘要时,都没有考虑这一重要的用户交互信息,使得生成的摘要并不能准确把握网页文档的主旨。为此,本文提出了一种以标签为导向的网页文档摘要新技术。本文提出了一种确定标签重要性排序的新算法EigenTag,这一算法在确定标签重要性时,结合考虑了给出标签的用户信息和标签信息,使得那些能够反映原网页文档主旨内容标签的重要性权重得分得到提高,并可以有效抑制低质量标签对标签重要性排序的影响。由于标签权重得分对句子得分的影响是基于标签词和句中词的完全匹配,但由于每篇网页文档所含有的高质量的,能够反映网页文档主旨内容的标签数量有限。因此标签和网页文档中词的不匹配现象会比较严重,进而造成标签权重得分不能有效赋予句中词。为此,本文使用了关联规则挖掘算法FP-Growth来扩展这些用户给出的高质量的初始标签。并使用了一种新的方法来确定扩展标签的重要性权重得分。本文使用了四种以用户标签为导向的网页文档摘要生成方法,并通过实验证实了以标签为导向的摘要生成新技术相较于传统不考虑标签信息的摘要技术,可以有效的提高摘要质量。
其他文献
本文研究了正交多幕光线散射补偿算法。投影机将图像投射到不同的屏幕上,屏幕上的光线会在光的散射作用下投射到与之相邻的屏幕上,使部分画面出现色彩增强和颜色不连续问题。
特征提取是人脸识别中的最基本的研究工作之一,其本质是将高维原始数据投影到更有利于分析的低维空间中。特征提取的经典算法有主分量分析方法,局部保持投影和边界费舍儿方法
近年来,随着Internet的迅猛发展,WWW技术已经成为了广泛应用,遍布世界各地的信息服务中心,数据挖掘技术也越来越多的应用到万维网中,于是产生了Web数据挖掘技术,Web使用模式挖掘是W
随着计算机被各行各业的普遍应用,数据库的应用越来越广泛。并行传输中长事务的调度问题日益凸显,其中长事务的处理和调度是一个关键的问题,对调度方法的研究势在必行。提高
随着传感器网络(Wireless Sensor Network,WSN )在军用和民用领域的快速发展,逐渐暴露了一些亟待解决的安全问题。其中,广播认证是WSN中极具挑战性的安全问题之一。在多数WSN
近年来,宽带数据和多媒体业务需求急剧增长,三网融合已成为信息业发展的重大趋势,呈现出以高清视频为核心的、交互的、多样化、个性化、融合化的通信业务,例如IPTV、视频会议
作为一种新颖的信息检索任务,近几年来,意见检索逐渐进入了人们的视线并渐趋引起人们的重视。而在现有的意见检索研究中,主流的研究方法是分别计算目标文档的主题相关程度值
计算机图像处理作为计算机技术在工业生产,人民生活中一个重要的技术和处理手段广泛应用到社会的各个层面和岗位上,它所具备的缜密性,科学性,严谨性带给一些行业质的变化,它的应用正在慢慢深入人心。信息化的处理方式也正逐渐成为整个经济建设,工业发展的一个前进方向和指标。将计算机图像处理技术应用到工业的X射线无损检测中来,是近几年经常讨论的一个话题。本文着重以焊缝这个缺陷为例,详细介绍了整套计算机图像处理系统
近年来,随着经济的迅猛发展,计算机技术和信号处理技术在研究和应用上有了质的飞跃,室内智能监控越来越受到人们的关注。智能监控系统摆脱了传统视频监控单一性功能的缺点,能
因特网目前是一个巨大、分布广泛、全球性的信息服务中心。它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其它信息服务。Web包含了丰富和动态的超链接