论文部分内容阅读
随着Web2.0技术的飞速发展,以Yahoo! Answers为代表的社区问答系统(CQA)已逐渐成为新兴的知识共享平台,以其交互性、开放性的特点,能够较好满足用户日益个性化的信息需求。典型的CQA系统由用户、问题和答案三种基本元素组成,分析三者之间的关系,研究用户行为模式,从而改善服务质量、提高用户粘性成为相关研究面临的主要挑战。
用户提交的问题或答案的内容反映了其所感兴趣的主题信息,用户对特定主题的参与程度可以准确映衬出相关社会事件的发展趋势,挖掘其中的主题结构,特别是公众关注度较高的热点话题,有利于准确把握网络中舆论状况,为相关部门的决策制定提供信息支持和依据;对同一主题感兴趣的用户之间的问答交互更为频繁,形成联系比较紧密的用户社区,对用户社区的研究有助于从宏观层面分析用户行为,定位社区主题相关的权威用户等;同一社区中的用户由于具有共同的兴趣,更有可能建立好友关系,在用户社区研究的基础上进一步向用户推荐兴趣相投的潜在好友能够加强用户间的信息交流,从而促进知识的共享和传播。目前对CQA的研究多集中在问题和答案质量分析、相似问题检索和用户满意度预测等微观层面,较少从主题结构、用户社区及好友关系等宏观层面进行分析。本文以CQA为研究背景,以网络挖掘技术为手段,从主题、用户社区及潜在好友三个不同角度展开研究,主要内容包括如下几个方面:
1)提出了一个热点话题检测和趋势挖掘框架,用于抽取某一时段的热点话题,并利用趋势挖掘技术,跟踪特定事件或主题随时间的变化规律,从而识别出用户广泛、持续关注,能够反映网络舆论状况的信息集合。该框架通过考虑关键词的时变特性,可以提高热点词挖掘的准确度,话题聚类算法有利于把握话题结构。针对移动终端屏幕小、输入不方便等特点,我们研究了该框架在移动平台的应用。
2)提出了一个主题演化模式挖掘方法,用于分析某一时段的主题结构及不同时段的主题之间的演化关系,从而揭示社会事件相关主题结构的演化过程,挖掘用户兴趣随时间的变化。该方法由时序主题结构抽取、主题演化关系识别和主题生命周期建模三个主要步骤组成。在两组数据集上的实证分析表明,所挖掘的主题演化模式可以作为研究用户兴趣和关注度的信息来源和反馈渠道,有着广泛的应用前景。
3)研究了用户社区及其演化模式挖掘问题,并针对该问题给出了两种分析策略,便于从宏观上把握用户间的交互关系。首先,从CQA中抽象出用户间的交互网络,以此为研究对象,提出了基于LDA的概率社区模型,通过考虑交互网络中边的方向信息提高了社区结构挖掘的质量。其次,以用户、问题、答案三者组成的多关系网络为研究对象,将链接分析方法和内容分析方法相结合,提出了一个多关系网络中用户社区挖掘及演化模式分析框架,并基于该框架分别设计了NMF-AT模型和AT-LDA模型。该框架通过考虑用户相关的内容信息进一步提高了社区结构的质量,并在挖掘社区的同时对社区主题进行描述。在多个数据集上的实验分析表明,本文方法能够检测到具有相似兴趣的用户社区,并对社区产生、发展和衰退的过程进行建模。
4)以用户之间的好友网络为研究对象,分别提出了两阶段好友推荐模型和基于信任传播的好友推荐模型,向用户推荐其可能感兴趣的潜在好友,以扩大其交友范围,促进用户间的信息交流和共享。在不同数据集上的实验表明,文中方法能够有效提高好友推荐的性能。