论文部分内容阅读
随着网络通信技术的发展及社交工具的普及,QQ、微信等即时通信工具得到了广泛应用,产生了大量的用于交互的短文本。这些交互式的短文本中包含了丰富的信息资源,具有很高研究价值,分析这些数据隐含的知识不仅具有学术研究价值也具有很大的社会影响与经济效益,对这些短文本信息流中的消息根据所属主题划分到多个会话队列有利于信息的管理以及进一步的分析。现有的会话抽取算法主要是基于文本相似度的聚类方法的改进,无法解决短文本特.征稀疏导致的文本相似度计算飘移引发的难题。 针对短文本的相似性特点,本文从社交用户交互强度特征的角度考虑,结合心理学上熟悉性对人际交互的影响的特性,提出了基于用户关系强度的社交会话抽取算法,该算法利用用户的历史交互数据以计算用户的交互强度、以及用户的职业属性等计算用户的属性相似度,从而计算用户的关系强度;最后,论文利用无监督的single-pass聚类算法结合文本的相似度以及用户的关系强度对用户产生的消息进行聚类。实验结果可发现,在活跃用户消息数量多的情况下,会话抽取效果要优于仅仅基于文本相似度的SPNN算法,可有效解决短文本相似度计算带来的难题。