基于话题模型的社区问题聚类算法研究

被引量 : 0次 | 上传用户:mangshengsun1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web2.0时代,互联网上的社区问答服务(Community Question Answering,CQA)已发展成为重要的信息获取方式。随着用户提交问题的累积,如何有效地组织和管理这些海量的问题成为重要的研究课题。目前,问答社区通常以层次类别来组织问题,这一管理方式的不足在于其对用户行为的严重依赖:提问者需要手工地为提交的问题选择合适的类别。为了减少用户在类别选择中的人工劳动,提升问题管理的智能化水平,本文研究了如何自动实现社区问题的类别化管理。我们把该问题看做聚类任务,根据社区问题之间的相互关联,对它们做自动类别划分。在数据挖掘中,文本聚类的目的即是把一个文档集合划分为互不重合的簇,每个簇对应一个类别或领域。和传统的文本数据不同,社区问题同时包含着非结构化的文本信息和结构化的用户信息,这些用户信息也表征了问题所属的类别。我们以文本和用户作为社区问题的两个维度,形式化地定义了社区问题包含的聚类特征。在现有的话题模型基础上,我们提出了Basic-PLSA模型,在文本特征上对社区问题做自动聚类。为了包含用户特征,我们以不同的方式扩展Basic-PLSA模型,分别提出了User-PLSA和Reg-PLSA模型。在User-PLSA中,文本和用户特征线性合并在同一个概率框架下。而Reg-PLSA则根据用户特征把社区问题构建成图结构,并在该图结构上对模型推断和参数估计过程做正则化(regularization)操作。实验表明,论文提出的方法有效实现了社区问题聚类,其中的Reg-PLSA模型取得了最佳的聚类效果和运行效率;而且,引入用户信息显著地改善了社区问题聚类的性能。同时,通过实验,我们也研究了文本特征的变化对聚类结果的影响。此外,本文考察了提出模型的进一步应用,即识别问答社区中的新类别。利用类别的先验知识,我们把无监督的Basic-PLSA模型改进为半监督的识别模型,成功地为问答社区识别出了高质量的新类别,且取得了比Basic-PLSA更好的识别性能。
其他文献
刀具是保证加工质量、提高生产效率的一个重要因素,刀具材料的选择是刀具制造的重要组成部分,根据用途和加工对象的不同,针对性地选择刀具材料,在实际加工中会取得良好的技术
目的 分析无抽搐电休克治疗(MECT)有自伤自杀行为抑郁症的效果。方法 选取本院2015年12月至2017年1月诊治的88例有自伤自杀行为的抑郁症患者资料,将服用帕罗西汀医治的44例患者
随着国际贸易的飞速发展,商务英语信函在国际交流中发挥着日益重要的作用。对于商务英语信函,人们一贯要求其语言精确、严谨,避免模糊。然而,事实并非如此。恰恰相反,模糊语言广泛
三十多年来,中国经济持续、快速增长,已跃居世界第二大经济体,人民的生活水平得到了很大的提高。但是伴随着经济的增长,尤其是工业化程度的加深,环境问题日益突出,严重影响了人们的
近年来随着2008年《政府信息公开条例》的颁布,中国电子政务发展的确取得了很大的成就。然而电子政务的发展总体还是传统的分散型管理,部门资源分割,项目建设相互独立,项目绩效未
随着我国信息技术的不断发展,推动着各行各业不断进步,提高了不同行业的工作效率。现阶段,不同层次的学校对于档案的管理都实现了信息化管理代替传统管理模式。本文主要针对
随着普遍应用于国防、工业、能源、金融与证券等关键要害部门的UPS的发展,UPS为这些部门的生产与安全发挥越来越重要的保障作用。从UPS系统容量、容错冗余供电方式、电源技术
论文主要针对大型储罐底板导波检测的复杂性对储罐底板导波检测的关键技术进行了研究。研究内容包括检测专用传感器的设计以及储罐底板复杂结构的检测。(1)针对底板的腐蚀检
当前,受资源、环境、国家宏观调控等因素的制约,钢铁市场需求增长呈现不断放缓的趋势,钢铁企业间的竞争愈加激烈。A钢铁公司规模位列全国钢铁行业第13位,但企业已连续三年盈利能