基于语言模型的微博文本检索方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sbisk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博提供了一种新的信息传播方式。在微博上,人们可以通过最多140个字来快速自由地表达自己的感受、见闻或者意见。微博自从出现以来经历了巨大的发展,目前风靡全球的Twitter和国内流行的新浪微博都有着数以亿记的用户,每天产生出巨大数量的新内容。随着微博的发展,它已经成为人们获取信息的一种重要方式。微博中的信息与传统网页信息相比更加具有时效性,因为微博的内容大部分是对热门话题的报导或者讨论。“没有检索的信息是无用的”,对于微博中海量的数据,如何使用户快速有效的得到他想要的内容,是微博检索的主要目的。本文研究了微博文本检索的两个主要特点:(1)相关性。即检索结果应该与用户的查询尽可能的相关。(2)实时性。即用户希望得到尽可能新的结果。目前流行的商用搜索引擎都采用了一种简单的检索模型,即将包含所有查询词的微博按其创建时间排序。这种方法虽然考虑到了微博检索的两个特点,按创建时间排序的方法也保证了检索结果的实时性,但是这种方法过于“严格”的相关性判断标准会使得大量的相关文档被过滤掉。本文在语言模型的检索方法下整体考虑微博检索的相关性和实时性。语言模型方法主要包括两个部分:与查询相关的相关性模型和与查询无关的文档先验模型。本文使用了一种基于创建时间的文档先验模型来考虑微博检索的实时性,实验结果表明这种模型的引入可以使结果提高4%到5%。而对于相关性模型的选择,本文对比了古老的伯努利模型和目前占主导地位的多项式模型。虽然多项式模型在传统的文本检索中被认为是优于伯努利模型的,但最近伯努利模型在句子检索中的优秀表现显示了它在短文本检索中的有效性。考虑到微博的短文本特性,有必要对伯努利模型在微博检索的效果进行研究。实验结果表明伯努利模型在微博检索中的结果的准确率要高于多项式模型,而且伯努利模型对于平滑参数的改变也比多项式模型更加稳定。因此,在语言模型方法中结合了伯努利模型和基于微博创建时间的文档先验模型的检索方法有着最好的结果。除了对检索结果按相关性排序的方法之外,本文还研究了将检索结果按微博创建时间排序的方法。本文采用了一种利用语言模型的检索结果进行重排序的方法,并对重排序阈值的选择进行了重点研究,使用了一种基于文档得分分布的自动阈值选择方法。这种方法利用高斯分布对相关文档的得分进行建模,并用指数分布对不相关文档的得分进行建模,并在缺少相关性标注的情况下利用期望最大化算法(EM)对混合模型进行参数估计。实验结果表明这种自动阈值选择方法的结果要比人工设定固定阈值的方法至少高出9%,而且自动阈值选择的方法也避免了在没有任何启发信息的情况下手工设定阈值很难达到最优值的问题。本文的最后将语言模型方法和自动阈值选择方法结合起来与目前流行的微博检索方法(即将包含所有查询词的微博按其创建时间进行排序)进行了比较。这两种方法都能产生按微博创建时间排序的结果,但实验结果表明本文的方法的结果比后一种方法要高出78.3%。
其他文献
由于互联网的快速发展,在繁多纷杂的信息中,如何辨别用户的真实意图,准确的从浩瀚的信息资源中找到所需的信息,成为当前信息检索领域一个较为关注的问题。在当今技术较为成熟
本节复习课围绕"细胞的生物膜系统",以进化为线索,围绕"生物膜的概念和作用"的教学目标,有效开展系统复习;并以问题作为驱动,带领学生合作探究,将高中有关生物膜的知识进行构
引用1984年尹克震提出的“开关函数的反演公式”,采用伪随机序列技术的思想,提出移位寄存器型时序逻辑网络的一种快速设计方法。
在思想品德教学中,教师如果能正确引导学生主动接触本地的传统文化,对学生开展思想教育,就有可能使优秀的传统文化和传统美德在青少年心中开花结果。我们提倡利用中国传统文
研究了聚合铝(PAC)与天然阳离子有机高分子壳聚糖(CTS)复合后的凝聚絮凝特征及复合絮凝剂对重金属废水的处理应用.结果表明,聚合铝与壳聚糖复合能相互促进其絮凝效能,应用于
本文分析中职语文教师应具备的素质,提出中职语文教师应从树立人生观、自主学习、参加教研活动、外出学习培训、重视创新、勤于思考等途径不断提升自身素质,为培养现代社会所
应用流体力学专业的数值分析软件Ansys-Fluent,对铂金通道进行温度场与流场的耦合计算;应用软件的"用户定义函数(udf)",编写自动调节铂金通道的加热功率的程序,使各段铂金通
在SierpinSKi地毯上构造了一个连通集合e,e包含10个压缩比为1/9的压缩函数生成的自相似集,且满足开集条件,它的hauSdorff维数为ln10/ln9;在连通集合e上构造一个可微函数,利用
摘 要:新媒体时代下非理性言论易引发网络舆论危机,对有效治理公共危机与构建有序健康网络舆论生态环境提出了新的挑战。本研究以网络舆论的非理性表达为研究对象,通过厘清非理性表达传播的演变阶段和分析不同阻断主体的优劣势,进而探究阻断网络舆论非理性表达信息传播的方法和策略。文中提出公共危机治理中阻断网络舆论非理性表达包括事件处置阻断、制度性阻断、媒介阻断、社会手段阻断及网络技术阻断等五种方法;分析常规阻断