基于用户关系强度及短文本相似度的社交会话抽取研究

来源 :汕头大学 | 被引量 : 0次 | 上传用户:ning211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络通信技术的发展及社交工具的普及,QQ、微信等即时通信工具得到了广泛应用,产生了大量的用于交互的短文本。这些交互式的短文本中包含了丰富的信息资源,具有很高研究价值,分析这些数据隐含的知识不仅具有学术研究价值也具有很大的社会影响与经济效益,对这些短文本信息流中的消息根据所属主题划分到多个会话队列有利于信息的管理以及进一步的分析。现有的会话抽取算法主要是基于文本相似度的聚类方法的改进,无法解决短文本特.征稀疏导致的文本相似度计算飘移引发的难题。  针对短文本的相似性特点,本文从社交用户交互强度特征的角度考虑,结合心理学上熟悉性对人际交互的影响的特性,提出了基于用户关系强度的社交会话抽取算法,该算法利用用户的历史交互数据以计算用户的交互强度、以及用户的职业属性等计算用户的属性相似度,从而计算用户的关系强度;最后,论文利用无监督的single-pass聚类算法结合文本的相似度以及用户的关系强度对用户产生的消息进行聚类。实验结果可发现,在活跃用户消息数量多的情况下,会话抽取效果要优于仅仅基于文本相似度的SPNN算法,可有效解决短文本相似度计算带来的难题。
其他文献
随着信息技术的不断发展和Web2.0的到来,人们习惯于通过雅虎、搜狐、新浪等在线新闻网站获取最新的新闻资讯并发表自己的观点和态度,任何国内外新闻事件都有可能引发网民产生巨
随着互联网技术的不断普及,使得网络在社会发展过程中逐渐成为不可或缺的关键角色,网络安全在这种趋势下受到了越来越多的关注,各类基于安全防御的手段层出不穷,在一定程度上防止
随着在线社会网络的蓬勃发展,人类交互和共享信息的方式发生了巨大变化。开放便利的互联网为人们的交流提供了更加宽广的平台,但同时也为谣言扩散孕育了理想的媒介。因此对谣言
虚拟化技术自二十世纪六十年代出现以来,发展迅速,尤其在目前云计算成为研究热点之后,虚拟化技术的研究更成为热点中的热点。虚拟化技术在出现之初,主要是为了能够将大型主机进行
移动互联网和高性能终端设备的快速发展,尤其是GPS定位应用的不断完善和普及,给人们的日常生活带来极大的便捷,基于位置的服务(Location Based Service,LBS)在生活中成为我们不可或
近年来,互联网在世界范围内蓬勃发展,其承载的信息量更是急剧膨胀。互联网承载的数据一部分是可以从Web页面上直接获取的表层数据,另一部分是以结构化方式存储于数据库中的Deep
计算机辅助几何设计中,曲线、曲面有两种基本的表示方法:参数形式和隐式形式。在实际应用中这两种表示方法有着各自的优缺点。参数曲线曲面具有构造简单直观、易于显示等特点,又
当今世界计算机和互联网技术的不断发展和带宽的快速增加,P2P的文件共享占据了网络绝大部分流量,成为互联网文件分发的主要模式之一。P2P文件共享就是P2P技术技术发展的动力源
近年来,一门新兴学科——数据挖掘,引起了人们的广泛关注,被应用到模式识别、统计学、数据库等众多领域。社会网络作为其中一个应用方向迅速发展,并且成为一个研究热点。对于社会
Reed-Solomon码是一种在移动通信,深空通信,数字存储中广泛应用的非二进制的循环纠错码。它具有严格的代数结构,对随机错误,突发错误和删除错误都有良好的纠错性能。本文主要研究