基于元信息的云盘资源检索结果去重

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户：lihonggeng

【摘要】

：

区别于传统计算网页文本相似度的去重方法,以多媒体数据文件为主的云盘资源仅可利用相当有限的元信息进行检索结果去重。针对这一问题,以搭建的面向云盘资源数据的搜索引擎系

【作者】

：

刘驰闫宏飞

【机构】

：

北京大学网络与信息系统研究所,

【出处】

：

山东大学学报(理学版)

【发表日期】

：

2016年07期

【关键词】

：

云盘资源检索重复记录搜索引擎去重搜索引擎系统文件资源归一化方法云盘资源网页

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

区别于传统计算网页文本相似度的去重方法,以多媒体数据文件为主的云盘资源仅可利用相当有限的元信息进行检索结果去重。针对这一问题,以搭建的面向云盘资源数据的搜索引擎系统为基础,通过对云盘资源元信息特性的分析,发现除名称之外,资源文件后缀名、占用空间大小、资源的用户归属是判定重复记录的有效特征。在此基础上,给出了处理上述特征的归一化方法,进而使用无监督方法进行去重。实验结果表明,该方法能够有效对云盘资源检索结果去重。 Different from the deduplication method of the text similarity of the traditional calculation webpage, the cloud disk resource mainly based on the multimedia data file can only use the rather limited meta information to retrieve the result. To solve this problem, based on the search engine system built for cloud disk resource data, by analyzing the meta information characteristics of cloud disk resources, it is found that in addition to the name, the suffix name of resource file, the size of the occupied space, the user attribute of the resource Is to determine the effective features of duplicate records. On this basis, the normalization method to deal with the above characteristics is given, and then the unsupervised method is used to deduct the weight. Experimental results show that this method can effectively reduce the retrieval results of cloud disk resources.

其他文献

渭南荣获全省关爱女孩行动知识电视大奖赛二等奖

在10月23日举办的全省关爱女孩行动知识电视大奖赛活动中,我市代表队以第二名的优异成绩荣获二等奖。市计生局高度重视这次全国关爱女孩行动知识普及暨竞赛活动,成立了以程忠

期刊

电视大奖赛计生局二名宁成实施方案临渭沉着应战领导小组一路领先富平

马尾化学感受器瘤的光学和电子显微镜观察

椎管内化学感受器瘤术前较难明确诊断,光学显微镜病理检查可确诊。超薄切片电镜观察,则可进一步确诊。 Spinal tuberculum seminoma before diagnosis is more difficult to

期刊

化学感受器瘤显微镜检查马尾电子显微镜观察光学显微镜超薄切片病理检查病理学临床椎管瘤细胞

超强纳米材料

据国外媒体报道,科学家已制造出一种革命性的超强纳米材料,它可用于从牙齿矫正器和医学植入物到电缆、太阳能电池板和手机等各种装置。《科学》杂志刊登了他们的研究成果。研

期刊

纳米材料结构材料太阳能电池板西澳大利亚大学研究负责人矫正器植入物农说研究成果弹性应变

牛背上的童年

我的童年,是在美丽淳朴的乡间度过的。最令我怀念的就是在田野树林、山坡溪涧玩耍的日子,那是一段金子般的岁月。那时候我们是一群天真可爱的孩童,每天在外面跑来跑去把自己

期刊

牛背跑来跑去全然不顾在乡下童年往事恍若隔世重重迷雾鸣蝉子般我在

浅谈语文课堂中的提问策略

教学是一门艺术,而课堂提问是组织课堂教学的中心环节,是对学生进行思维训练和口语训练的重要手段。巴尔扎克说过,打开一切科学殿堂的钥匙毫无疑问的是问号。可见,提问有多么

期刊

提问策略思维训练教学效果课堂教学满堂问思考时间口语训练控制教学过程课堂结构设疑

体表及深部脏器经皮活检166例分析

体表及深部脏器病变经皮穿刺活检进行细胞学、病理学及微生物学检查,对恶性肿瘤有着重要的临床价值。我院自1983年以来,对166例病人进行了经皮活检,现总结分析如下。材料与

期刊

经皮活检微生物学检查快速进针穿刺点投影中心细针抽吸活检活检阳性率提插病理学诊断冰冻切片法

狗骨魔笛与神鸦

1在一个宁静的小村庄里,生活着一个姓黄的农夫,他有两个儿子,叫黄大与黄二。这两个儿子的母亲去世早,多年以来,都靠父亲侍弄几亩薄田养活他们。时光流逝,父亲渐渐地老了,两个

期刊

魔笛狗骨邻居们趔趔趄趄厚着脸皮大树下活着在人间三声千金小姐

创刊词

《中国法医学杂志》是在我国现代化建设的光辉历程中,为适应我国法制建设和法医科学的发展而创办的。我国法医学有着悠久的历史,宋代法医学家宋慈的《洗冤集录》是世界上公

期刊

洗冤集录中国法医学杂志经典著作现代化建设宋慈中国法医学会法制建设第一应用科学学术交流

吝啬的楚霸王

别忘了给自己的性格打分,每一种性格10分,看看到年末,你是否可队获得满分。满分可是120分呢!——编者 Do not forget to give your character a rating of 10 for each char

期刊

楚霸王扛鼎相信自己力能玉红

“私话公用”是发展公用电话的有效途径

当前,如何大力发展作为城市公用事业的公用电话,是摆在各级邮电企业面前的一个重要课题。笔者认为,从兼顾效益、服务等因素出发,采取“私话公用”的办法是目前发展公用电话

期刊

公用电话城市公用事业计时器被动管理用户服务线对基数维修时间服务水平月份

基于元信息的云盘资源检索结果去重

与本文相关的学术论文