基于半监督流形学习的Web信息检索技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:hepingweixiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web 2.0时代,万维网逐渐由一个海量信息存储库发展成为全球用户参与、分享和交互的平台。这一方面促使万维网上各种复杂类型数据(图像、音频、视频等)急剧增加;另一方面,用户在Web信息检索方面的个性化需求也不断增长。有效支持复杂类型数据检索和检索结果的个性化成为当前Web信息检索技术所面临的两大挑战。本文对基于半监督流形学习的Web信息检索技术进行了探索和研究。半监督流形学习技术基于流形数据假设,利用由已标注数据和未标注数据所共同体现的内在流形结构,来构建更有效的学习模型。在各种Web信息检索应用中,各类相关数据通常分布在高维外部空间中的子流形结构上,这为半监督流形学习技术提供了广阔的用武之地。在Web 2.0时代,各类Web 2.0应用将产生大量的用户自主创造内容(UGC)。这些UGC数据包含了很多用户个性化信息,有效利用这些数据是实现Web信息检索个性化的关键。但是,相比于万维网上的海量信息,能有效辅助个性化检索的用户反馈信息显得非常稀缺。半监督流形学习技术利用数据的流形分布特征,让我们在Web信息检索中更加充分的利用用户反馈,实现各类数据的有效检索,更好的实现检索内容个性化。在本文中,我们在对半监督流形学习技术在以下Web信息检索相关领域中的应用进行了研究和探索:1.基于内容的图像检索(CBIR):引入用户反馈是解决CBIR中“语义鸿沟”问题的有效手段,但这又给图像检索带来“维度灾难”问题。为了解决这个问题,本文使用核技术对最大边缘投影算法(MMP)进行非线性扩展,提出了基于核的最大边缘投影算法(KMMP)。KMMP将图像子流形映射到一个低维子空间,更好的实现高度非线性流形数据的降维,有效提高图像检索的精确度。2.Web新闻人脸检索:大部分新闻都是和人相关的一些故事,因此根据特定的人物对相关的新闻文本和图片进行检索是一种很自然的需求。在新闻人脸检索中,人工标注的代价往往较高;因此,现有的方法都是在文本检索的基础上,使用无监督学习技术对人脸数据聚类来检索新闻人脸。如果属于同一个人的负样例图片比较多,无监督的方法会返回大量的错误结果。本文提出了一种基于半监督流形排序的新闻人脸检索方法,利用人脸数据分布的流形几何特征,在检索过程中引入用户相关反馈,实现更加精确的新闻人脸检索。同时,用户相关反馈的引入,也有效解决了无监督方法在属于同一个人的负样例图片较多的情况下检索精度差的问题。3.网页文档摘要:在社交网络中,用户在网页上标注的标签既是对相关内容的高度概括,也是用户对感兴趣内容的标注。这使网页标签成为网页摘要的良好素材。本文通过使用网页标签,提出一种以抽取用户感兴趣内容为主的社会化摘要方法。首先,我们在三核协同标签模型(Tripartite Collaborative Tagging Model)的基础上,通过分析用户标签行为,构建一个体现数据流形分布特征的加权图。然后,我们使用线性近邻传递方法实现在加权图上的用户兴趣传播,使得产生的网页摘要有效聚焦于用户感兴趣的内容。4.新闻网页标题识别:传统新闻网页标题识别方法都是基于模板的,必须为不同的模板开发不同的包装程序(Wrapper),而且容易受模板更新的影响。本文提出一种基于视觉效果的新闻网页标题识别方法,有效消除标题识别的模板依赖性。在使用VIPS算法对新闻网页分块的基础上,我们抽取新闻标题块的视觉特征和部分内容特征,构造了一个标题块数据的流形空间。我们通过在这个流形特征空间中应用半监督流形排序算法,实现了对新闻标题块较为精确的识别。
其他文献
现代景观规划与设计的创新是一项全面而系统的工作,不仅要善于借鉴世界优秀园林艺术,还要通过研究创造性思维的研究问题,发挥重要的作用.通过对创造性行为的反思和反思,被称
起始于捷成家族早年的船运生意,平等、尊重和信任构成百年传承的核心价值观。
利用常规气象资料、FY-2G卫星资料和桂林多普勒雷达资料,对2016年3月19日夜间桂林一次冰雹天气过程的环境条件和雷达回波演变和结构特征进行了详细分析。结果表明:过程发生在
分析了房价上涨以及房地产宏观调控不成功的原因,提出了解决房地产投资反弹及房价上涨现象的办法。
当前,随着可持续发展战略的不断推进,智能化建筑得到了广泛的发展。新时期的人们对于智能建筑的使用功能也有了更高的要求,尤其是在电气的使用功能方面,呈现出了上涨的趋势。鉴于
居住区园林景观设计和施工过程中常会遇到与管线综合衔接问题。本文分别简单介绍了居住区管线综合和居住区园林景观方面的内容,并描述了二者在设计和施工中存在的矛盾和冲突。
空间数据也被称作地理信息或地理空间数据,用来标识空间实体在地球上的地理位置、边界、大小等信息的数据,它可以用来描述来自现实世界的对象,诸如海洋、城市、道路等。空间
近年来由于计算机图形学技术的进步,三维模型的数量呈爆炸性增长。为了帮助人们有效地管理和访问大量三维模型,研究三维模型检索方法和检索系统势在必行。基于内容的三维模型
现代企业会计因服务主体的二元性,其功用必然表现为二元特征。其服务主体的二元性总体表现为外部化的社会群体,包括因两权分离而外化的产权主体即所有者、债权人、政府以及社
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议