综合MPEG-7颜色描述子与元数据的WEB图像分类

来源 :第四届全国信息检索与内容安全学术会议 | 被引量 : 0次 | 上传用户:hot8391
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文给出了一种WEB图片分类的新方法.该方法使用两种MPEG-7颜色描述子作为图像底层特征的描述,并通过对网页内容的分析,得到了WEB图像的元数据.元数据包括网页标题,ALT文本,周边文本以及指向图像所在网页的锚文本.分别进行了使用MPEG-7颜色描述子、图像元数据及综合这两种特征进行图像分类的实验.实验表明综合两种特征进行分类在平均查全率、平均查准率和平均F值上明显优于其他两种方法.
其他文献
拒绝服务攻击(Denial of Service,DoS)和分布式拒绝服务(Distributed Denial of Service Artack DDoS)攻击对运行于Interact上的各种应用造成了很大的威胁.它通过消耗目标主机带宽或者目标主机各种资源而达到迫使目标主机无法向正常用户提供服务的目的.本文首先对传统的DOS、DDoS攻击方法及防御策略进行了简述总结,随后通过分析流媒体服务自身
互联网的发展为人们共享信息提供了前所未有的条件,然而这也为科技论文抄袭行为提供了便利,于是判定科技论文的原创性变得尤为重要.针对这一问题,本文提出并实现了基于信息检索技术的中文科技论文的原创性检查系统.本文采用n元文法结构作为索引单元,以概率模型为检索模型,利用开源的Lemur Toolkit作为基础建立系统.实验结果表明,该方法行之有效.
双语术语相似度计算在跨语言信息检索等领域有重要的应用.目前双语术语相似度计算主要有基于统计和语言学两类方法,其中,本文针对语言学中基于词典的术语相似度计算效果受词典覆盖面影响较大的缺点,提出基于词典的语义预测扩展相似度算法,并利用动态规划求解多对双语术语的相似度,从而选择正确的双语术语.实验结果显示该算法的准确率达88%,召回率达82%.
在信息检索领域,针对相关文档和用户查询之间的词不匹配问题,相关反馈和查询扩展可以有效提高检索性能.近来学者们将单词之问的关联关系融入到统计语言模型中,但都是利用WordNet或共现关系进行查询扩展,前者效果不明显而后者易引入很多"噪音".本文提出一种基于局部词语搭配关系的查询扩展方法,即从前N篇相关文档中反馈具有句法和语义关系的搭配单词加入原查询.在TREC数据集的试验结果表明:本文提出的基于词语
本文介绍了一个适用于新闻搜索应用的索引更新算法,称为基于汇集(pooling)的在线索引更新算法(POIU).它使用一种新型的混合式在线索引更新策略,通过在内存中对倒排表进行汇集,可以快捷高效地把短的倒排表成批地筛选出来,使得为数众多、增长缓慢的短倒排表能够在内存池保留下来,有利于更有效的合并更新.同时,本文说明了实现这个POIU算法所需的一种索引词表的高效缓存和查找技术.本文还对系统的实现情况和
本文通过构建文本的线性序列,并分析该序列相似度曲线的变化,针对增量式K均值聚类算法,提出一种基于相似序列的初始点和调整对象的选择方法.其中初始点的选择改进了聚类算法的性能,调整对象的选择降低了算法在迭代调整中处理的数据量.在不同的测试语料中本文采用该方法分别对传统的K均值和增量式K均值进行对比实验,进而证明该方法的有效性.
本文在KNN的分类框架下实现对科技论文的国际专利分类IPC自动标注.在对其中涉及的关键技术进行分析的同时,本文对多种相似度计算方法和ranking方法的不同组合进行了比较和实验分析.在NTCIR7的dryrun语料上的实验结果表明.BM25相似度计算方法和考虑相似度排名位置信息的railking方法的组合明显优于其它组合方法.
在过去的十多年里,互联网上的网站数量呈指数增长趋势,互联网上的网站数量已经突破1.5亿,而网页数量更是达到数百亿.用户往往需要借助搜索引擎和网页目录才能从这样海量的网页当中找到符合自己需求的高质量网页.传统的网页目录几乎都是采用人工构建的方法.这样的构建方法有着耗时多、不够客观、缺乏一致性以及无法及时反映新闻事件和热点事件等缺点.因此,开展网页目录自动构建方法的研究对提高网页目录的质量具有重要意义
Skyline查询技术是近年来信息检索领域的一个研究重点和热点.现有的研究工作主要考虑如何提高产生skyline对象的效率,而忽略了用户使用skyline对象集的效率.从而导致用户无法有效关注感兴趣的数据对象.基于此,提出SkyCluster的概念,对skyline对象进行基于密度的聚类,使得用户能够有效关注skyline对象频繁出现的区域,从而提高用户使用skyline对象集的效率.另一方面,由
个性化信息检索可以根据用户的检索兴趣返回个性化的检索结果.本文提出了用户新兴趣发现子任务,根据用户检索对象的变化识别包含新检索兴趣的查询.同时,本文引入TexTiling方法并对其进行改进,使系统可以自动选择合适的动态阈值并准确发现用户检索兴趣的转移.在本文构建的标准评测集上的实验结果表明,改进的TextTiling方法使得用户新兴趣发现系统性能提高了16.4%,而且此子任务使得最终的个性化检索系