论文部分内容阅读
Web3.0是互联网发展过程中出现的一种新模式,目的是解决用户无法从海量分散信息中快速获取对自己有用的信息这一问题。Web3.0在Web2.0的基础上,把散落在互联网上的各种信息聚合起来,并与用户的需求点对接,使用户得到的服务更加个性化、精准化和智能化。本文在研究Web3.0的基础上,围绕实现信息聚合与个性化服务及其在水文领域的应用,研究相关理论与技术。首先分析了聚合模式和聚合所需数据的获取方式。针对水文信息,确定使用网络爬虫从互联网各站点获取水文新闻信息,采用开放式API、Web服务和屏幕抓取等技术获取水文相关专业数据,如河道水位、流量、降雨量、水质等。为将水文新闻与地图进行聚合,本文研究了从新闻页面中自动提取正文、关键词、摘要、时间、地名等要素的方法。这些方法包括基于文本密度的页面正文提取,基于信息熵的关键词提取,基于词频和分布位置的地点提取等。研究新闻自动分类,在朴素贝叶斯文本分类的基础上,提出一种基于关键词降维的改进方法。经验证该方法对分类的速度和准确度都有提高。用户兴趣模型和个性化推荐算法是个性化信息服务的核心。为了实现个性化信息服务,本文得出了一套用户兴趣模型的表示方法、构建过程及更新机制。使用向量空间模型将用户兴趣表示为兴趣关键词及对应权重的向量形式;根据用户的浏览历史和浏览行为隐式获取用户的兴趣词并计算兴趣权重,以建立用户兴趣模型;借鉴艾宾浩斯遗忘曲线模拟兴趣的衰减过程,用以构建兴趣的更新机制。然后设计基于上述用户兴趣模型的个性化推荐算法,包括基于内容的推荐和基于用户的协同过滤推荐,及基于关联规则推荐。阐述了各种推荐算法的使用过程,并分析各算法的适用场景。考虑到地理位置对用户选择的影响,在个性化算法中加入了地理位置因子,以优化服务结果。最后在上述研究的基础上,设计搭建B/S架构的水文信息个性化聚合服务平台,实现水文信息聚合和个性化服务。满足相关用户对多源信息的需求和享受个性化信息服务的需求。