论文部分内容阅读
随着互联网信息技术的飞速发展,数字图书馆的数字化文献资源与日俱增,用户从数字图书馆获取有效需求信息的难度也逐年上升。如何帮助用户方便、快捷、准确的获取所需信息资源是数字图书馆的重要研究方向。 数字图书馆的个性化推送服务将获取到的用户需求与馆藏文献资源进行匹配,选出与用户需求相符的信息资源并主动推送给用户,满足了用户的个性化需求,提高了用户获取资源的效率。 论文首先研究了个性化推送服务的流程及 Web日志分析的相关技术和算法,包括独立用户识别技术、网页抓取技术、中文分词技术、特征加权算法、中文文本分类算法等。然后提出了基于Web日志分析的数字图书馆个性化推送服务模式,通过对用户的行为日志进行处理、分析,提取用户的兴趣特征,匹配相关的文献资源并推送到用户的电子邮箱中。分析和构建了推送服务架构,对该架构的日志文件预处理、用户行为特征分析、文献资源特征分析、信息推送、数据实时更新等五个模块进行设计,其中着重研究和设计了用户行为特征分析模块,通过jsoup技术抓取用户访问的资源页面,运用NLPIR汉语分词系统对页面文本进行中文分词并基于 TF-IDF算法计算各特征词的权重,利用朴素贝叶斯分类算法将该页面进行文本分类,得到用户的兴趣特征数据。最后,对个性化推送服务架构进行实例验证,并与传统的基于规则的文本分类方法进行对比实验,证实了该架构的可行性。