论文部分内容阅读
近年来,随着互联网技术的飞速发展和广泛应用,社区问答系统引起了研究者们的极大关注,成为了自然语言处理和信息检索领域的一个重要分支和研究热点。社区问答系统为了帮助用户尽快获得答案,提供了问题检索,问题推荐的机制,但现有的解决方案大多基于自然语言模型,更多地从文本方面进行检索、推荐,没有充分利用社区问答系统的结构特征和交互信息;同时缺乏用户的针对性,没有考虑用户的语言习惯、兴趣偏好等。另外系统对于最佳答案选择只依靠提问者或其他投票者,处理时间较长,亟需建立最佳答案即时选择机制。因此,如何为用户提供更有针对性的问题检索、问题推荐服务,以及如何实现最佳答案的即时选择三个关键问题的解决具有重要的应用价值。基于上述内容,论文的创新点包括:1.提出一种基于目录信息和依存语法树的相似问题检索方案。该方案既充分利用了社区问答系统本身具有的结构特征,又借助了自然语言的文本分析技术,根据每个用户的历史提问记录实现问题检索。实验表明:用户的历史提问记录和目录信息能极大的缩小相似问题搜索空间,在预判目录下采用依存语法树提取关键词而后进行检索,具有更高的准确率。2.提出一种个性化问题推荐方案。该方案深入分析以Yahoo! Answers为代表的社区问答系统,挖掘社区问答系统的结构特征,采用机器学习分类技术,结合每个用户的历史回答记录,实现个性化问题推荐。实验表明:影响用户推荐效果的特征呈现明显的个性化特点,基于机器学习分类技术的问题推荐方法具有较高的正确率、召回率,并且其性能随着用户历史回答记录规模的增长而得到进一步的提升。3.提出一种事实类问题的最佳答案选择方案。该方案无需训练数据和人工标注,利用事实类问题候选答案之间的相似性和社区问答系统中投票者给出的赞成/反对信息,可自动选择最佳答案。实验表明:该方案可用于线上即时处理,且具有较高的准确率。