微博搜索中的若干关键技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:linxiaotu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网领域的一个重要事件就是社交网络的兴起和发展。社交网络已经成为人们传播信息、交流思想、结交朋友的重要媒介。不同于传统的文本检索,作为社交网络的典型代表,微博在搜索时面临着新的挑战。   微博和传统文本具有不同的特点,这使得微博搜索不能照搬传统的文本搜索方法:一方面(在内容上),微博记录的文本短,Twitter里发表的微博平均只含有十几个词项,传统基于词频统计的文档表达模型难以得到有效的估计;文本短也对反馈模型带来问题,微博反馈模型的估计和使用也有待深入研究;新元素多,现有的方法未能将HashTag等重要信息融入排序模型。另一方面(在结构上),微博作为一种新型数据源,其信息在结构上也具有不同的特点,如存在两种网络:微博记录都有作者,即丰富的用户信息,而用户又形成社交网络;微博记录间常常有回复和转发关系,这些关系与传统PageRank里的链接关系也大不相同,形成微博转发回复网络。不难看出,这些特点给微博搜索带来了挑战,同时也提供了新的可用信息。   针对微博搜索的特点,本论文的工作主要涉及微博搜索中的查询反馈、检索模型和文档表示模型等关键技术,主要工作和贡献如下:   1.针对微博记录较短的特点,本文提出一种可利用作者信息的微博记录表达模型。传统的方法基于统计有效性,适合处理更长的文本,因此本文在语言模型的基础上提出了使用作者信息对微博本身进行扩充的思想。并从作者模型和作者话题模型两个方面对微博进行扩展,采用两种平滑方式对其做了实验对比。其中使用作者信息训练话题还改善了微博话题训练中的词项的共现较少的问题,将微博记录的词项间的平均共现次数提高了11.7倍。实验结果表明,合理利用作者信息可以提高微博检索的效果。   2.本文结合微博的内容与结构特点,提出一种可以融合非文本信息的扩展的翻译模型。语言模型中的翻译模型可以在排序函数中很好的融合词的“翻译”概率,即词的语义相关性。但目前的翻译模型并没有考虑微博特有的元素,如回复、转发、URL、HashTag话题等。本文对翻译模型在微博检索中的应用做了细致分析,研究了如何对这些非文本内容做出“翻译”。实验结果验证了非文本内容在微博检索中的可用性。   3.本文提出一种基于核方法的微博检索模型,对反馈方法做了改进。通常的反馈和负反馈方法将相关和不相关文档各视作一个团(各自估计一个模型),根据这两个模型来修改查询。而在微博的初步检索结果中(反馈文档)不相关文档间一般各不相同,甚至相关文档也不一定相似,反馈文档会形成很多“团”。因此本文提出使用多模型的方案来对反馈文档的各个团进行建模,从而做到了对其更细致的划分。该方法需要标注,可以应用于在线的微博检索环境或者交互式检索当中。也因为它不仅考虑正反馈也考虑负反馈,还考虑正文档和负文档间的不同,因此可以达到更好的检索效果。实验结果表明,采取不同的团中心选取方法和使用不同的核类型都将产生不同的检索效果。
其他文献
星空背景图像仿真是航天仿真中的一个重要问题,尤其在空间探测仿真系统,星空背景图像仿真对系统仿真结果有着重要的影响。图像仿真子系统模拟载荷相机在虚拟星际空间拍摄图像
意见是人们对实体、事件或它们的特性所产生的情感倾向、评价或感觉等内在想法的主观性表述。组织和个人都倾向于决策时参考他人意见。本世纪互联网应用的迅猛发展使人们收集
随着空间探测的发展,深空探测成为了航天领域的发展重点,由于深空环境的复杂性,空间数据处理系统向高集成、体积小、多功能、模块化方向发展已成为一种趋势。同时,现代航天任务更
分子结构优化对于分子建模、药物分子设计和蛋白质研究都具有重要的意义。国内外对分子结构优化的研究已经有了比较系统的理论基础,国外也有很多支持分子结构优化的软件,但是国
Android是基于linux内核的开源操作系统,被广泛地应用于电视、数码相机、可穿戴设备、平板电脑上。凭借开源策略及精准的市场定位,Android系统占据了智能移动终端操作系统84.2%
近年来,随着软件规模的越来越大,软件的安全越来越被人们所关注,而现有软件开发方法及软件测试手段所能提供的安全保证是脆弱和不可靠的。即使经过多次测试后的软件,也不能确保其
候鸟迁徙空间分布研究对掌握野生鸟类栖息地生境分布状况具有重要的意义,它能为科研考察路线确定、野生鸟类保护策略的制订以及传染疫病的防控提供决策支撑。   本论文结合
下一个地理兴趣点推荐的任务在近年来被广泛研究,然而,由于各相关因素的异构性,设计一个包含与地理兴趣点和用户相关的多个因素的统一的框架仍然是十分有挑战性的。而且,如何
入侵检测系统(intrusion detection system,IDS)作为一种有效的安全防御技术,已经被广泛应用于计算机网络安全管理中。入侵检测技术能在不影响网络性能的情况下对网络安全进行
在图像处理和计算机视觉领域中,图像编辑具有重要的应用价值和研究意义。对于复杂的自然图像,由于其视觉模式分布的复杂性,往往难以用一个全局的统计模型对其进行建模。相对