论文部分内容阅读
近年来,互联网应用技术飞速发展,信息的爆炸式增长使得信息过载问题日益严重,无论是用户还是信息服务提供商都面临着巨大的挑战。与此同时,信息化浪潮的来临使得各个领域产生了大量的数据。因此,如何从这些数据中发现有价值的知识和规律,成为目前理论与实践研究的热点与难点。针对网络资源快速增长导致的信息服务和需求失配问题,研究人员提出了以用户画像为基础的个性化服务解决方案,其核心在于基于文本挖掘和多源数据融合的用户兴趣模型构建。本文围绕用户兴趣建模这一目标,针对现有兴趣模型对不同用户间兴趣描述差异性较大和难以及时发现用户兴趣变化两大问题,提出了相应的改进措施。对上述问题,本文以用户生成内容和用户行为信息为分析对象,利用自然语言处理、知识仓库、数据融合等方法和技术,对基于文本挖掘和多源数据融合的用户兴趣挖掘关键技术进行研究。在此基础上,进一步探讨了用户兴趣的描述方法和用户兴趣迁移问题。最后,本文设计了一个面向个性化服务的用户兴趣挖掘系统模型,并通过系统实现验证了本文提出模型的有效性。本文主要研究内容包括:(1)兴趣描述方法。针对用户兴趣描述方法不统一、不同用户间兴趣描述差异较大导致用户兴趣维度过大的问题,本文提出了基于开放式分类目录的用户兴趣标签空间及兴趣映射的相关算法。此用户兴趣描述体系充分借鉴了现有开放式分类目录的结构体系,能够对用户兴趣进行有效分类。(2)用户兴趣建模。本文将用户兴趣视为长期兴趣和短期兴趣共同作用的结果,并由此提出了长、短期兴趣的发现和融合方法,并进而构建了能够准确反映用户长、短期兴趣变化的兴趣模型更新方法。此外,为描述用户兴趣的时变特性,本文充分考虑时间因子对兴趣迁移的影响,提出了基于兴趣历史相似度的用户兴趣迁移发现方法,实现对兴趣变化的捕捉。