动态Web信息监测相关技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lv_yj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网的迅速发展,Internet上站点个数及网页数量呈爆炸式增长。面对信息的海洋,用户试图通过浏览Web来发现实时信息变得非常困难,而对Web信息进行实时监测要求用户能从庞大的信息页面中发现有价值的信息,用户通常只能监测单个站点或几个站点,监测效率低。在这种背景下,本文对Web信息监测相关技术做了一些研究,并提出采用动态聚类的方式来发现热点事件,主要涉及以下几个方面:设计了动态Web信息监测系统的基本框架。Web信息监测并没有成熟的框架,传统的信息监测系统均采用C/S模式实现。本文提出基于B/S模式的监测系统基本架构,并在三层结构上分离数据入库,采用Web Service提供信息实时入库。提出Web信息监测实现基本方法,采用信息频道作为信息监测基本单位,频道通过用户自动构建,而频道定义为由某个或多个网站以及网站下栏目组成,并采用Ajax实现多频道的信息监测。研究了基于页面的缓存设计,结合服务器端用户Session,减轻了服务器端负载,也减少了监测响应时间以及监测信息流量。在监测页面中保存上次获取的监测信息集合,并通过Session保存上次监测的最后一条信息编号,在本次监测过程中服务器端返回当前频道下更新的信息,而不是返回全部信息。从监测用户的不同监测需求出发,对用户个性化进行了初步研究。采用信息频道作为用户兴趣的基本表示,并实现在频道下针对用户输入关键词的信息过滤模式。提出采用关键词映射表的方法将用户输入关键词映射到事件描述,并采用布尔模型进行信息过滤。同样,采用关键词映射进行全文检索,并提出可监测机制。研究了在Web信息监测下的信息聚类技术。通过对某个时间段的信息聚类能发现热点事件,其可以作为监测的重要依据。Lingo算法作为检索结果聚类方法,其是描述优先的方法,能较好的发掘聚类标签。本文提出采用语义相似度和余弦相似度加权的Single-Pass改进方法对Lingo聚类的结果进行类融合以及类再发现。实验表明,该方法可以发现更多类别,并且能对类别进行较好的描述,用户也可将聚类结果用于信息监测的依据和方向。
其他文献
近年来,由于3D电视、无线传感器网络等交互多媒体应用的兴起,多视点视频系统变得越来越受人关注。多视点视频编码作为多视点视频系统的核心技术一直以来被广泛关注与研究。根
当前,医学图像分割在医学图像处理中起着非常关键的作用,其目的是分割出图像中具有特殊意义的区域,并提取主要的特征数据,从而为医学图像处理和分析提供强有力的依据,也是进
人脸识别,是生物特征识别领域中的热门研究话题,同时也是计算机视觉领域最成功的应用之一。它具有广泛的应用前景,在门禁系统,智能安防,智能监控以及国家军事和安全领域等表
随着嵌入式系统的发展,近年来出现的电子纸在嵌入式显示设备中的地位越来越重要。电子纸具有功耗低、掉电画面保持、强光下可视性好、抗挤压等优点,在将来的嵌入式系统中必将得
随着人类社会信息化加剧,无线多媒体通信的应用成为一种必然趋势。由于视频信息具有数据量大、难以传输和存储的问题,所以传统的视频编码标准,如H.264,采用DCT变换、运动估计
可否认性是一个重要的概念,目的是为了保护用户的隐私。可否认性已经引起了很大的关注,在认证协议、组密钥协议以及加密方案中得到了广泛应用。可否认的加密是一种加密体制,
目前很多云储存平台都只关注于内容存储和共享服务(如百度云),这些云平台为了提供共享服务都使用明文形式存储,所以这类云平台都缺乏对用户信息的隐私保护。而另一类云平台(
2D视频将现实世界的三维空间投射到二维空间,保留了场景的二维信息,却失去了空间层次信息。为了弥补2D视频的空间立体感,增强画面感染力,3D视频应运而生。受众的需求、商业的
近年来,电子系统集成度提高带来了频发的间歇性故障,使容错方案的设计提出了新的挑战。观察故障对系统中各个层次的影响过程对容错方案的设计有重要意义。另一方面,为了评价各种
随着互联网的迅猛发展,信息容量呈爆炸性趋势增长,用户面临着信息过载和资源迷向的问题,用户要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。准确的获取资源