基于文本的Web图像检索技术研究

被引量 : 0次 | 上传用户:zhouyi_love
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web信息技术的不断发展,图像作为一种重要的信息资源不可避免地出现在Web的信息资源交换中,其数据规模不断膨胀,面对海量的Web图像资源,如何基于Web用户的图像认知及检索习惯,高效实现Web图像的检索服务是信息检索领域中的重要研究课题之一。本文在分析图像及其语义特征的基础上,对图像检索的各种方法进行了相应的调查研究,基于用户对图像的认知及检索习惯,结合图像所处的Web环境特征,针对现有技术现状,分析了基于文本的Web图像检索方法的可行及有效性。本文围绕改进Web图像的检索质量,对基于文本的Web图像检索方法进行了深入研究与分析,并着重图像资源采集及相关文本分析的预处理环节展开研究,主要工作有:(1)针对各类Web图像资源的采集,在分析Robot的核心工作机制基础上,进行了可配置Web Robot的架构研究与实现,并给予了相应实验证明。通过采用可配置的灵活架构,可灵活控制Web资源采集的目标、范围及效率等;通过保留适当的增量开发接口,可实现各种采集工具的无缝集成,有利于节约各种Web资源采集工具的开发成本并提高工作效率。(2)针对日益复杂的HTML页面,以VIPS算法中证明的各项启发式规则作为支撑,提出基于HTML树路径差异度的页面主题区分算法,并给予了实验证明。通过算法实现复杂页面中的主题区分,可以克服将整体页面视为同一主题进行索引检索所带来的“主题漂移”现象,有利于准确提取Web图像的相关文本,有效地改进基于文本的Web图像检索质量。(3)针对同一网站中部分主题信息重复使用的现象,利用基于HTML树路径差异度的主题区分算法,结合HITS算法中的Hub值概念,提出了基于网站的噪音过滤算法,并给予了实验证明。通过算法可以有效地识别同一网站中的重复主题,通过过滤HTML页面中的重复主题可达到降噪处理的效果,不仅有助于用户高效获取有用信息,也有利于确定有效的图像资源并准确获取图像资源的相关文本,进而改进基于文本的Web图像检索的查准率。
其他文献
<正>宁海"标会"由来已久,是互助性质的民间筹措资金的有效手段,在特定历史时期曾起到对金融经济有益补充的功能。但在上世纪九十年代曾发生过大规模"倒会"事件,2008年受金融
任何文化都源于一定的地域、国度和民族。我国是一个多民族的国家,“五十六个民族五十六朵花”,每个民族都有自己的特色文化。建设先进文化离不开民族文化的支持,先进的民族文化
<正>我国国有企业是在计划体制背景下通过没收官僚资本、改造和赎买民族资本,国家大规模投资建设等手段建立起来的,经过几十年计划体制的熏陶,
伴随着我国加入世界贸易组织以及市场经济的不断发展,我国医疗机构也开始面临了新的机遇与挑战,医院管理目标的准确定位与选择对医院提高自身管理水平、实现长期发展都具有十
<正>2014年以来,我国经济发展滞缓,制造业遭遇寒冬,普遍面临转型升级之痛,在浙江省尤为典型。红木家具产业作为现代工业和传统文化结合的产业,也经历"过山车式"的曲折发展。
近年来,国内外曾报道在^18F-脱氧葡萄糖(FDG)PET/CT全身显像中,一些位于颈背部、肩胛区、纵隔、肋椎关节旁、肾周等区域的生理性显影是相应区域的棕色脂肪组织(Brown adipose ti
用干旱棚法,对11个旱稻品种抗旱性进行了研究,分析了株高、穗长、穗下节、抽穗期、成产三因素、结实率、叶片失水率、叶片萎蔫度等性状在水分胁迫条件下的变化及与品种抗旱性
2018年3月~4月连绵阴雨,使得宣恩县马铃薯晚疫病、油菜菌核病发生中等。春播时期,天气干旱,导致许多水稻移栽延迟,7月~8月份长期高温干旱,对宣恩县粮油及经济作物生产带来比
良丰A是用性状互补的优质保持系十优B与百B杂交制保后与十优A测交、回交转育而成的软米型籼稻不育系。该不育系花粉败育彻底,柱头紫色、外露率高,异交习性好,分蘖力中等,叶片
本文讨论了的电子文档数据中心系统集成的标准化问题,并提出了数据接口中数据交换与数据标准化建议。