基于社会媒体挖掘的社会化搜索研究

被引量 : 3次 | 上传用户:zzzzzz1234566666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着web2.0业务的迅速发展与普及,在线社会网络(Online Social Networks, OSNs)和微博等新兴的社会网络应用得到了快速的发展,已经成为人们工作与生活当中不可缺少的一部分,吸引了来自学术界和产业界的广泛关注。人们在互联网上通过各种关系相互联系在一起,形成一个个规模庞大、关系复杂并且内容丰富的在线社会网络,用户在OSNs中通过交友、通信、协作、共享和发布内容等方式进行交互。作为一种集社交、信息共享与传播为一体的新型网络平台,OSNs的快速增长导致互联网中不断涌现大量的用户生成内容(User Generated Content, UGC),这在为信息的流动与传播提供便利的同时,也为传统的信息检索方式带来了新的挑战。越来越多的用户更倾向于通过他们的在线社会网络获取信息,在这种背景下,社会搜索技术应运而生。本文围绕在线社会网络中的用户与社会媒体数据,对社会搜索的关键问题进行研究和探索。首先,对社会搜索的两个基本任务,搜索与推荐进行了研究,并提出混合式社会搜索模型与基于用户兴趣推荐的协作话题预测模型;接着,对社会媒体中的用户属性与用户行为进行讨论分析,提出一种基于事件的用户分类模型;最后,对社会媒体中的用户影响力进行了建模与分析。本文的创新性主要体现在以下几个方面:(一)提出了一种基于用户在线社会网络的混合式社会搜索模型社会搜索建立在用户社会网络基础之上,不同于大多数搜索引擎,社会搜索的意义在于如何让用户可以快捷有效地找到他所需要的最精准的信息,而非海量。搜索者不仅能够得到各种信息,还能与他/她所信赖的社会关系交流与分享对于这些信息的推荐与评价。本文提出一种新型的混合式社会搜索模型,利用用户的社会网络属性设计搜索策略。与Web根据内容组织网络的方式不同,在线社会网络是根据用户来组织网络的。本文的目的是查找能够为查询发起者回答问题或提供帮助的目标用户,并对目标用户进行索引排序。在对社会网络中的用户进行排序时,一方面,需要计算用户在某个特定领域的专业程度;另一方面,要将用户的社会关系考虑在内。除了用户的专业程度、好友关系强度以外,目标用户的活跃度、目标用户在其自身社会网络中的影响程度也会影响搜索排序的结果。因此,对在线社会网络中的这些用户行为特征进行分析研究,设计新型的混合式社会搜索模型,综合考虑话题相关性与用户相关性,为用户提供更加精确的信息显得尤为重要。(二)提出了一种基于用户兴趣推荐的协作话题预测模型搜索与推荐是社会搜索中的两个关键任务。搜索是用户主动进行信息检索的操作,系统通过分析用户需求为用户提供个性化的搜索结果。而推荐对用户来说是被动的操作,系统通过历史数据分析学习用户的喜好,为用户推荐可能感兴趣的人或内容。本文的目的是设计一个协作式的话题预测模型对用户进行兴趣推荐。话题,是对用户生成内容(UGC)的抽象概括。本文首先通过构建一个话题网络来表示话题之间的关联关系,然后根据话题之间的相关性计算出一个可推荐的话题列表;再利用用户的社会关系图,为用户推荐好友感兴趣的话题:最后通过组合这两种推荐方式,得到最终的兴趣推荐结果。无论是在学术搜索领域还是电子商务领域,针对用户的兴趣推荐都有很好的应用前景。(三)微博媒体中基于事件的用户分类研究微博媒体将信息共享与用户的社会交互很好的结合在一起,允许人们以更快捷的方式对社会事件做出响应。本文以新浪微博为研究对象,提出一种基于事件的用户分类模型。通过研究微博特性,基于微博内容信息与微博网络结构信息,提取出用于训练分类模型的用户特征,从事件的角度将新浪微博用户划分为四大类:社会名流、组织/媒体账号、草根明星,以及普通用户。与此同时,本文分析了不同类别用户表现出的行为特征与语言特征。对参与特定事件(或主题)讨论的用户进行分类,将具有某一特征的用户汇集在一起,一方面,能够更有效的将有用信息推荐给特定用户;另一方面,在社会搜索过程当中,能够更快速更准确的定位到目标用户群体。此外,对微博用户基于事件的分类研究在网络安全、舆情控制、舆情引导等方面也有着深远的意义。(四)微博媒体中基于事件的用户影响力分析影响力这个概念在社会学、传播学、市场营销以及政治学领域都有相关的定义。在微博媒体中,不仅用户之间的影响力存在差异,同一个用户,在不同事件中对其他用户的影响力也有所不同。因此,本文提出一种基于事件的用户影响力分析模型,通过深入分析新浪微博中的用户属性、内容质量以及社会关系状态,对微博媒体中的用户影响力进行定义与量化计算。在新浪微博数据集上的验证结果表明,本文的方法可以成功的挖掘出不同事件背景下高影响力的用户。用户影响力的分析研究对社会搜索中的专家定位、权威用户和意见领袖的挖掘都具有重要的意义。
其他文献
通过建立环渤海地区三省一市海洋经济可持续发展能力的评价体系,选取德尔菲法、AHP法和熵值法,运用CISD模型构建可持续综合发展指数,定量评价环渤海地区海洋经济及各子系统可
目的建立HPLC法同时测定没食子酸、5-羟甲基糠醛、莫诺苷、当药苷、马钱苷和山茱萸新苷I 6种有效成分的色谱条件,并以马钱苷为参照建立"一测多评"定量分析方法。方法采用不同
为进一步推动科研机构进入市场,加快科研成果转化为生产力的速度,促进我国科技事业的发展,提高我国科技竞争力。1999年4月,原国家经贸委管理的10个国家局所属242个科研机构实
海参是一种重要的水产经济动物。海参体壁是海参主要的食用部位,主要由不溶性胶原蛋白构成。海参制品在加工、贮存中形态及口感变化与海参中主要成分——胶原蛋白的变化密切
随着云计算、物联网、移动互联网、社交网络等新技术、新模式、新应用的快速发展,.互联网规模也急剧扩大,数据量快速增长。而传统网络的弊端在处理以大数据、智能分析、网络
英语原声电影的欣赏和学习是学生全面提升自身英语水平的有效方式,然而现有调查结果显示,英语原声电影欣赏这一教育方式在实践过程中未能获得预期效果。基于此,分析我国现有
优先权是一项传统的担保物权,发韧于罗马法,后经法国、日本等国民法加以继承,并发展成为一个由一般优先权和特别优先权组成的完整物权体系。我国未来物权立法应设立统一的优先权
关于中国英语,已有二十多年的研究历史,中国英语连续体理论对研究中国英语教学具有重要意义。本文在回顾语言连续体和中国英语连续体的发展与应用的基础上,从中国英语语音变
本试验应用猪肺炎支原体弱毒株分别通过肌肉注射、肺内注射以及鼻腔免疫等三种方式免疫长白×大约克二元杂交猪,研究呼吸道局部和全身免疫水平的变化。选取6窝新出生的仔猪,