基于博文质量评估的微博过滤研究

来源 :北京工业大学 | 被引量 : 2次 | 上传用户:winxb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前社交网络媒体已逐渐取代传统新闻媒体,成为人们获取信息、交流观点、发表意见的主要平台。但是随着微博参与者数量的爆发式增长,用户面临“信息过载,知识缺乏”的窘境。微博过滤技术能够帮助用户过滤无关垃圾信息,并根据用户兴趣挖掘相关内容,因而得到研究者的广泛关注。已有的研究表明,将微博过滤建模成简单信息检索问题无助于提高微博过滤性能。这主要是因为微博作为典型的短文本,微博过滤面临极端的词稀疏问题,导致传统检索模型无法有效估计参数而失效。有鉴于此,本文通过引入了微博博文质量模型,将微博过滤问题建模成根据博文质量,对检索出的相关博文进行深化排序的问题,提出了一种新颖的微博信息过滤处理框架。本文的主要贡献包括:首先,本文给出了基于质量模型的微博过滤系统设计。在对研究涉及的相关知识进行综述的基础上,将微博过滤任务建模成依据博文质量进行的博文排序问题,提出了一种新颖的微博信息过滤处理框架,并详细介绍了微博过滤系统的结构设计、关键模块和功能描述。其次,本文研究了基于同质性约束的微博内容最优低秩表达方法。考虑到微博内容表达的不规范性,微博内容特征往往很高但特征极其稀疏,给微博的分析和研究带来了很大的不便。基于上述考虑,对微博“内容—文档”矩阵进行因子化分解,用分解得到的低秩矩阵和微博检索特征矩阵综合得到了微博内容特征表达,并通过引入同质性系数约束进一步优化表达矩阵。再次,本文研究了基于稀疏特征约束的博文质量评估模型方法。我们根据微博内容最优低秩表达,建立了微博博文质量评估模型,根据博文质量实现相关博文推荐和无关博文过滤。同时为了减少微博质量评估模型的复杂度、降低回归模型的分类风险,使用基于稀疏特征约束的广义线性回归模型,进一步降低微博博文质量评估模型函数的特征变量依赖性。最后,本文在公开数据集上验证了算法的有效性,在TREC Microblog Track2015实验数据集上的实验结果表明,和现有的微博过滤方法相比,本文提出的微博质量模型可以对微博过滤系统的排序性能进行优化,平均NDCG值有了一定提高。
其他文献
分组密码和hash函数作为密码学的重要基础算法,一直是密码学界和工业界的热点研究课题之一。线性分析,差分分析,不可能差分分析、boomerang攻击、相关密钥攻击、积分攻击、和rot
人脸表情识别技术已经在游戏、驾驶员疲劳检测、智能人机交互等领域得到了广泛的应用。但是表情表述和理解的计算,仍然是一个极具挑战性的课题,这主要是因为人脸表情识别中涉及
日益严重的交通问题已成为全球性的顽疾,它不仅影响个人生活和社会经济活动,而且涉及到环境、能源和安全等当今世界关注的重要议题。智能交通系统(ITS)被公认是解决道路交通问
随着社会发展对高效工作的迫切要求以及移动互联网技术的迅猛发展,越来越多的单位和个人迅速加入到移动办公的行列。在传统的办公模式中,工作人员必须在特定的工作环境和特定网
随着计算机技术以及人工智能技术的不断发展,智能决策技术在许多领域得到研究和应用,并发挥着越来越重要的作用。本文就是基于人工智能和决策支持系统领域的相关知识和技术,针对
近年以来,大数据处理一直是计算机界研究的热点,特别是云计算、物联网和社交网络等新兴服务的出现,使得各类型的数据呈现爆炸式增长。由于海量数据具有数据量巨大、数据结构复杂
运动跟踪是计算机视觉领域的一个重要研究课题。它是对图像序列中的运动目标进行检测、分类和跟踪,获得运动目标空间位置、速度、加速度以及运动轨迹等参数,并对其行为进行理解
2007年以来云计算成为了IT界的新热点。互联网迅速发展的同时也伴随着处理数据的激增。如何高效的存储和计算海量数据成为计算机科学亟待处理的新问题,而这类问题恰恰是云计算
语音端点检测是语音分析、语音合成和语音识别中的一个重要环节。在实际运用中,通常要求首先对系统的输入信号进行判断,准确的找出语音信号的起始点和终止点。这样才能采集到真
云计算是一种用户可按需分配及自主配置的新型资源池,这种技术可以为用户提供计算、网络、存储等虚拟资源。作为一种为用户提供商业服务的技术,如何合理调度系统资源是云计算