论文部分内容阅读
随着国际互联网的迅速发展,Internet上站点个数及网页数量呈爆炸式增长。面对信息的海洋,用户试图通过浏览Web来发现实时信息变得非常困难,而对Web信息进行实时监测要求用户能从庞大的信息页面中发现有价值的信息,用户通常只能监测单个站点或几个站点,监测效率低。在这种背景下,本文对Web信息监测相关技术做了一些研究,并提出采用动态聚类的方式来发现热点事件,主要涉及以下几个方面:设计了动态Web信息监测系统的基本框架。Web信息监测并没有成熟的框架,传统的信息监测系统均采用C/S模式实现。本文提出基于B/S模式的监测系统基本架构,并在三层结构上分离数据入库,采用Web Service提供信息实时入库。提出Web信息监测实现基本方法,采用信息频道作为信息监测基本单位,频道通过用户自动构建,而频道定义为由某个或多个网站以及网站下栏目组成,并采用Ajax实现多频道的信息监测。研究了基于页面的缓存设计,结合服务器端用户Session,减轻了服务器端负载,也减少了监测响应时间以及监测信息流量。在监测页面中保存上次获取的监测信息集合,并通过Session保存上次监测的最后一条信息编号,在本次监测过程中服务器端返回当前频道下更新的信息,而不是返回全部信息。从监测用户的不同监测需求出发,对用户个性化进行了初步研究。采用信息频道作为用户兴趣的基本表示,并实现在频道下针对用户输入关键词的信息过滤模式。提出采用关键词映射表的方法将用户输入关键词映射到事件描述,并采用布尔模型进行信息过滤。同样,采用关键词映射进行全文检索,并提出可监测机制。研究了在Web信息监测下的信息聚类技术。通过对某个时间段的信息聚类能发现热点事件,其可以作为监测的重要依据。Lingo算法作为检索结果聚类方法,其是描述优先的方法,能较好的发掘聚类标签。本文提出采用语义相似度和余弦相似度加权的Single-Pass改进方法对Lingo聚类的结果进行类融合以及类再发现。实验表明,该方法可以发现更多类别,并且能对类别进行较好的描述,用户也可将聚类结果用于信息监测的依据和方向。