论文部分内容阅读
随着Internet的飞速发展,互联网上积累的信息越来越多,如何在海量的数据中快速有效的找到所需要的信息成为目前的一个研究热点。虽然现在互联网上有许多搜索引擎可以帮助人们搜索自己想要的信息,但是目前的搜索引擎还有一些缺点,比如“关键字搜索”常常不能迅速找到用户想要的内容等。随着信息社会、知识经济的到来,这种传统的被动式知识传授已逐步让位于主动式知识探究。人们已经不满足于最初的消极浏览、关键字检索,而是更希望用更高效的方式—自然语言问答来表达自己对知识的获取意愿和疑问。近年来,新一代的搜索引擎—问答社区(Question Answering Community)已经成为新兴的知识分享模式,它并非直接根据关键字查询已经存在于互联网上的内容,而是用户自己根据具体需求有针对性地提出问题,通过积分奖励等机制发动社区中的其他用户创造该问题的答案。同时,这些问题的答案又会进一步作为搜索结果,提供给其他有类似疑问的用户,用户既是问答社区的使用者也是知识的创造者,从而达到分享知识的效果[1]。本文以Web挖掘技术为手段,以Web2.0技术为辅助,针对问答社区的个性化服务展开研究。具体工作包括以下两个方面:(1)基于社区化问答服务的结果聚类算法。根据已有的内容聚类算法以及在搜索引擎领域中的应用,提出了一种针对问答社区的结果重新聚类算法,通过分析问答系统返回的问答对(question answering pairs),根据算法获取问答结果中重要的关键词并将其作为候选的问答结果标签,用户可以通过选择若干个标签来快速聚类问答结果,同时,为用户设计一种基于内容聚合的交互式元搜索(meta search)的用户界面。(2)基于加权HITS算法的问答专家推荐算法。针对问答系统的用户希望获取专家帮助的个性化需求,分析用户在问答社区中扮演的不同角色,根据用户行为的相关反馈定义相对应的权重,利用加权的HITS算法计算用户的得分,从而获得某一问题类别里具有高权威度的专家用户排名,为用户提供问答专家的个性化推荐服务。最后,我们从目前著名的社区问答系统(百度知道[24]、Yahoo! Answers[25]和天涯问答[26]等)中抽取问答对作为语料进行测试,实验结果表明我们为问答系统提供的个性化服务相比目前的问答服务能取得更好的试验效果。