论文部分内容阅读
作为近年来飞速发展的社交网络应用,微博已成为人们日常生活中进行交流和信息获取的重要途径之一。微博的内容包含了用户的兴趣偏好信息,这些隐含在微博当中的用户偏好信息对用户建模、内容推荐、热点事件走向预测、为用户提供个性化服务方面都有重要作用。但隐含在文本信息中的用户兴趣偏好难以直接获取并对其进行描述,如何准确地对这些信息进行挖掘和描述成为了急需解决的问题。 本论文以微博数据为对象,分析研究了微博用户偏好的描述和建模方法,并对所提出的方法进行了实验验证。论文的主要工作如下: (1)针对微博用户兴趣偏好主体不明确,且传统基于用户手动添加兴趣标签等方法数据稀疏、更新不及时,无法准确描述用户偏好的问题,本文采用了文本分析的方法来获取用户兴趣偏好,进行用户偏好建模。本文所提出的方法首先结合了用户在微博的行为特点以及兴趣随时间转移的特点,改进了关键词权重的计算方法,然后将计算结果作为结点权重引入到图模型投票算法TextRank中,通过改进的TextRank对用户微博中的兴趣关键词进行了提取。实验结果表明,与传统方法相比,本文所提出的方法将用户兴趣关键词提取的准确率和召回率分别平均提升了2.97%和2.67%。 (2)针对当前用户兴趣偏好提取与建模方法主要从词频、语义、主题等角度进行分析,但忽略了用户对于不同兴趣的情感与偏好程度的问题,本文提出了用户对于某一兴趣的偏好程度与其对于该兴趣的情感强度相关的假设,并基于这个假设把情感分析结果作为衡量用户对于兴趣偏好程度的方式引入了用户偏好建模。在文本情感分析方面,本文结合微博文本特点,对情感词典进行了极性以及强度的调整,并提出了基于依存句法与语义依存的情感分析方法。相较于传统的方法,本文的情感分析方法将情感识别的准确率、召回率、F值与改进前的方法相比分别提升了2.03%,2.98%,2.53%。基于微博数据的用户偏好建模实验结果也表明提出的结合情感分析的用户偏好建模方法有较强的适用性。