论文部分内容阅读
在Web2.0时代,互联网上的社区问答服务(Community Question Answering,CQA)已发展成为重要的信息获取方式。随着用户提交问题的累积,如何有效地组织和管理这些海量的问题成为重要的研究课题。目前,问答社区通常以层次类别来组织问题,这一管理方式的不足在于其对用户行为的严重依赖:提问者需要手工地为提交的问题选择合适的类别。为了减少用户在类别选择中的人工劳动,提升问题管理的智能化水平,本文研究了如何自动实现社区问题的类别化管理。我们把该问题看做聚类任务,根据社区问题之间的相互关联,对它们做自动类别划分。在数据挖掘中,文本聚类的目的即是把一个文档集合划分为互不重合的簇,每个簇对应一个类别或领域。和传统的文本数据不同,社区问题同时包含着非结构化的文本信息和结构化的用户信息,这些用户信息也表征了问题所属的类别。我们以文本和用户作为社区问题的两个维度,形式化地定义了社区问题包含的聚类特征。在现有的话题模型基础上,我们提出了Basic-PLSA模型,在文本特征上对社区问题做自动聚类。为了包含用户特征,我们以不同的方式扩展Basic-PLSA模型,分别提出了User-PLSA和Reg-PLSA模型。在User-PLSA中,文本和用户特征线性合并在同一个概率框架下。而Reg-PLSA则根据用户特征把社区问题构建成图结构,并在该图结构上对模型推断和参数估计过程做正则化(regularization)操作。实验表明,论文提出的方法有效实现了社区问题聚类,其中的Reg-PLSA模型取得了最佳的聚类效果和运行效率;而且,引入用户信息显著地改善了社区问题聚类的性能。同时,通过实验,我们也研究了文本特征的变化对聚类结果的影响。此外,本文考察了提出模型的进一步应用,即识别问答社区中的新类别。利用类别的先验知识,我们把无监督的Basic-PLSA模型改进为半监督的识别模型,成功地为问答社区识别出了高质量的新类别,且取得了比Basic-PLSA更好的识别性能。