论文部分内容阅读
目前,网民获取信息的一个重要方式就是在线搜索。但是随着WEB 2.0和各类社交网站的日益崛起,传统搜索引擎的重大缺陷日益凸显。即各种Web2.0网站和社交网站拥有极为丰富的用户数据,但传统搜索引擎却无法支持对其检索。对用户而言,不同的用户因为职业、爱好、学历及社交关系有所不同,对搜索结果的期待也就有所不同,因此对获取个性化的搜索结果有着迫切的需求。对企业而言,企业迫切需要用户参与的新型搜索方式的普及,从而能够获取更多用户信息,以便更好地发展客户关系和提供个性化服务。鉴于此,本文提出一个新的搜索系统,命名为PERSO,意图使用PERSO系统实现基于用户社交行为的个性化搜索目标。该系统通过爬取开放的在线社交网络数据,分析丰富的用户特征及社交关系,把用户最感兴趣的结果反馈在最靠前的位置,从而改善了传统搜索引擎的搜索结果。用户建模是个性化社交搜索的关键,本文根据国内最大最开放的社交网站新浪微博的数据特征,提出了多层次多维度的用户模型,包括一级(用户自身社交行为)、二级(朋友社交行为)、三级(社交扩张)社交相关度模型,后者是前者的补充,全面地描述了社交网络中的用户特征。在用户建模的基础上,本文提出将社交相关度模型集成到web文本搜索处理过程的三种方法,即三种网页排序机制:先文本特征过滤后社交特征排序的两步骤TP排序;先社交特征过滤后文本特征排序的两步骤PT排序;社交与文本共排序的一步骤HB排序。最后,本文以1000万篇百度百科文档和20位真实的新浪微博用户的社交数据为数据来源,以F1和nDCG@K为评价指标,设计执行了四组实验:三种层级的社交化相关度模型的测评实验;三种排序机制的测评实验;用户与好友信息对搜索效果的影响力对比测评实验;好友数量对搜索效果的影响力测评实验。实验证明了本文排序机制的有效性,以及每一级模型对搜索结果不同的改善程度。