论文部分内容阅读
随着互联网不断地飞速发展,网民数量激增,人们的社交模式也逐渐发生了改变,从线下迁移到线上,人们在线下进行生活和工作的同时,也在线上精心经营着第二自我。具有相同兴趣的网民聚集在一起,组合成为虚拟社区,在虚拟社区上,大部分的内容都是用户所产生的,这些内容称为用户生成内容(User Generated Content,UGC)。UGC是互联网海量数据的重要来源,蕴含丰富的应用价值,是大数据时代发展的前提。但是UGC本身具有一定的缺点,随着社会化媒体的不断发展以及互联网技术的不断提高,造成了海量的UGC涌现,海量的UGC会放大UGC本身的缺点,并导致从UGC中提取出用户需要的信息和知识变得异常困难,目前关于此问题的研究仅集中于文本领域。尤其是当前UGC的表达方式从单一的文本转变为文本和图像的模式,然而,并无直接针对于图文结合内容的研究方法,如果针对于图文结合的UGC内容只使用关于文本方面的研究,会造成文本可用信息不足以完全表达原始意思,同时衡量内容的效果不如真实影响。那么,如何应用图像特征解决图文结合的UGC中文本信息不足是亟待解决的问题。本文的研究以虚拟社区中图文结合的UGC内容为研究对象,根据图像的语义理解理论,逐步地从图像的视觉层、对象层和概念层中提取及量化语义知识,并逐步地从如何考虑图像信息、到图像信息作为辅助信息、最后将图像信息和文本信息一并作为主要信息入手,同时解决目前虚拟社区中存在的内容水质、信息噪声和主题不符等问题。本文的研究对现有的图像信息提取及与文本的结合研究作了进一步地拓展,并对于图像不同层次语义知识的量化方式进行了探索和创新,为今后多媒体的知识提取及量化的研究并做了铺垫。具体研究工作如下所示:(1)基于图像语义理解理论,将图像视觉层的特征语义计算并量化,同文本等特征一并研究图文结合的UGC内容中添加图像的影响,并解决在图文结合的方式下,如何考虑图像信息解决UGC内容质量评估的问题。在真实的虚拟社区数据集上,该量化方法表现良好。该研究的指标选择结果为后续研究的图像筛选作了指导;(2)基于图像语义理解理论中视觉层的特征语义的指标选择方法,将图像对象层特征语义量化为主观评级和客观比例的方式,并将提取出的对象层信息作为辅助信息,解决文本信息作为主要信息时出现的数据稀疏性问题。在真实的虚拟社区数据集中,添加了图像信息的推荐方法较未添加时更精确。该研究的信息提取、加工处理结果为后续研究的图像学习模型作了铺垫;(3)基于图像语义理解理论中视觉层特征语义的指标选择方法和和对象层特征语义的信息量化方法,建立与图像概念层特征语义的映射关系,同时将图像概念层特征语义文本主题概率分布之间学习并发现联系,通过优质的内容训练模型后可以得知图像与文本主题的匹配度,用以解决图文结合的UGC内容中图文主题不符的问题。在真实的虚拟社区数据集中,添加了图文匹配度的质量预测方法较未添加时更准确。该研究的语义映射方法及验证作为最终解决图文深度结合UGC的语义知识提取方法。