论文部分内容阅读
随着互联网信息的迅速膨胀和发展,海量的信息不断涌入至网络中,在信息资源丰富的同时用户面临着“信息过载”和“信息迷向”的问题。商业搜索引擎在一定程度上解决了这些问题,但仍无法准确的针对具体用户返回其所需信息,因此如何将搜索模式由“基于检索”转变为“基于用户”从而实现个性化搜索服务成为信息服务领域的研究热点,目前实现个性化搜索服务的主要技术是建立表示用户兴趣的用户模型,通过不同用户的兴趣模型提供与之对应的搜索结果。
本文首先对用户模型的关键技术进行了深入研究,包括建模方法、数据源获取途径、模型表示方法、反馈信息获取方式及用户模型的更新策略,并对这些关键技术进行了比较与分析。
其次,在以上基础上,提出了一种面向用户兴趣的个性化用户模型。利用显式建模与隐式建模两种方式完成模型的建立,采用内容挖掘与行为挖掘两种技术相结合的方式来准确的获取用户兴趣,在引入时间因子的基础上,利用向量模型空间VSM来表示用户兴趣模型,最后通过设定时间阈值淘汰过时兴趣分量的方式完成用户模型的更新。用到技术包括页面解析,TD-IDF计算,页面行为获取及模型向量构建。
接着,在用户模型的基础上,采用三层架构模式,设计并实现了一个面向用户兴趣的个性化信息搜集及引用系统,并对各功能模块进行详细设计。在元搜索引擎的工作模式基础上引入了GoogleWEBAPIs,完成搜索引擎的网爬功能;通过相似度匹配完成个性化页面推荐。
最后,针对搜集文献信息资料引用的问题,论文在分析现有参考文献管理软件在处理引文标注时需频繁切换窗口导致效率过低的问题,通过VSTO开发包调用Word对象方法,采用C#语言设计并实现了一个引文标注Word插件。与现有参考文献管理软件相比,该插件无需切换窗口,可实现题录信息与Word文档一体化存储,可实时录入题录信息,可快捷添加、修改引文标注,可自动对引文标注编号、排序,可随时在引文标注处调出引文进行确认。