论文部分内容阅读
随着网络技术的飞速发展,信息爆炸所产生的个人信息疲劳和信息压力使搜索引擎变得越来越重要,搜索引擎已经成为名副其实的信息枢纽和信息门户,是用户获取网络信息的首选工具。然而,在搜索引擎返回的巨大的结果列表中,只有一小部分信息符合用户的偏好,甚至在top K结果中,没有符合用户偏好的信息。面对如此窘境,我们不得不重新审视,究竟如何才能为用户提供符合其偏好的个性化信息?本文分析其主要原因在于,没有真正理解用户查询背后的潜在语义动机,不清楚用户要做什么,故无法为其提供高质量的个性化服务。搜索引擎直接面对知识背景及搜索意图各异的用户,因此,不可能有一种普适的查询方式,能弄清楚不同用户输入同一查询词,他们各自的潜在动机分别是什么?他们到底想要得到什么样的信息?例如:用户输入“东北大学”,其可能是想随机了解一些东北大学的普遍信息,也可能是想查询今年的招生政策,还可能是想了解外界对东北大学有些什么评价。由此可见,用户的潜在语义动机理解是个性化搜索的基石,如该环节理解的不够准确,与用户实际需求匹配性不高,那么后续进行的个性化服务工作就有可能误入歧途。在实际查询中,输入“关键词”是用户在搜索中的第一步,代表了用户对于自身的搜索需求的TAG化表述,互联网“全息搜索理论”创始人顺风认为:需要深刻的认识到在传统搜索系统中“关键词”在用户心中产生的过程和搜索输出之间的相互关系,发现在用户搜索动机、搜索前思维量与搜索引擎反馈之间的全息联系,用户输入的“关键词”实际上就是一个将心算出的TAG引入搜索行为的过程,而且此类TAG应该成为最有质量的TAG,因为其中凝聚了搜索用户第一反映的无意识性的内心智慧。搜索引擎只有准确把握用户的搜索动机,才能有的放矢地为其提供高质量的个性化服务。基于上述分析,本文从用户潜在语义的用户动机分析入手,并以此为主线,对多种个性化服务关键技术进行了研究,主要工作包括以下几个方面:(1)在计算机研究领域内,从哲学、心理学角度剖析用户搜索行为,并从认知学的角度,提出了基于概率潜在语义动机分析的用户行为模型,高度概括了各种具体搜索行为,从抽象的角度去理解用户的搜索行为。该模型的提出为进一步研究个性化搜索提供了新的思路。(2)在文档潜在语义空间中,应用Zipf分布与概率潜在语义分析算法相结合的方式进行文档潜在主题提取,改善了文档潜在主题提取的质量。(3)以狄氏先验的有限混合模型理论为基础,提出了高效无监督的网页聚类算法。可以有效克服一般的文本聚类算法无法有效应对的高维性、稀疏性文本,以及文本数据之间的相似性函数定义困难,聚类质量和效率低等不足,改善了聚类效果,提高了捕获用户兴趣潜在主题需求的能力。(4)提出了一种新的基于用户潜在语义分析的查询扩展技术。即将通用搜索中查询扩展的技术与用户动机挖掘技术相结合,而开发出的一种新的查询扩展技术,解决了搜索引擎由于通用的性质而缺乏面向用户的个性化的信息处理的能力,从了解用户的语义上的搜索动机以及了解认知与心里相互作用的角度出发,从根本上解决了查询过程中的一词多义及多词同义等问题,在个性化搜索过程中有效的进行语义消歧。(5)针对面向查询的排名算法的不足提出了面向用户的重排名算法。即在原有网页排序算法的基础上,根据用户的兴趣偏好而提出的一种局部优化排序算法,既符合用户的个性化需求,又不影响搜索结果的查全率,尽可能做到其排序结果与用户语义动机相符合。总之,本文从用户潜在语义动机的理解出发,针对个性化搜索各个环节中的关键技术展开研究,如用户建模技术、查询扩展技术、网页局部优化排序技术、聚类技术等,力求达到用户查询与搜索引擎返回结果的高效匹配。