基于主题的海量中文文档去重技术研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:Joexie2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,信息的传播成本逐渐变低,大部分文档可以被随意转载、传播、修改、增加格式、增加评论,这将导致大量相似甚至重复的文档产生,这些相似或重复的文档不但在信息检索环节和存储环节中会耗费大量计算资源,而且只能给用户提供少量有效信息甚至不能提供有效信息,这无疑将严重影响互联网数据的质量和信息的传播效率。因此,为提高数据质量和信息传播效率,缩减不必要的资源耗费,提出一种高效的、可以处理海量文档的文档去重方案势在必行。传统的基于聚类的去重方案虽然去重精度较高,但不能解决大规模文档的去重问题,基于simhash的去重方案虽然可以解决海量文档的处理效率问题,但去重精度并不理想。针对上述现状,本文通过先建立统一的文档向量模型,再对特征维度做精准加权,然后对文档向量哈希映射,最终通过检测哈希码的相似度来达到检测海量文档中相似文档的目的,提出一种基于主题的海量中文文档去重方案。本文的主要贡献有:针对文档向量容易出现高维、稀疏的缺点,本文提出一种基于word2vec的文档向量降维方法。该方法利用word2vec的语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,经实验证明该方法有效地浓缩了特征词袋,降低了文档向量的维度,使更多的特征信息存储在维度较低的向量中。针对经典的TF-IDF词权算法仅考虑特征词的词频、逆向文档频率的特征权重,而不考虑特征词的其它权重的问题,本文在分析、总结中文的表达习惯后,提出一种基于特征词的词性和位置自适应权重的TF-IDF改进算法。该改进算法可以根据每篇文档中名词和动词的比例和特征词出现的位置,动态地确定该特征词的词性权重和位置权重,经实验证明该改进算法有效提高了文档特征加权的精准度和自适应性。针对海量文档的去重处理规模过于庞大的问题,本文提出了基于LSH的海量中文文档去重方案,该方案将经降维处理和TF-IDF改进算法加权过的文档向量作为输入,经局部敏感哈希(LSH)算法再次哈希降维,最终把精准的文档向量映射为一个二进制的哈希值,进而通过检测这些二进制哈希值的汉明距离相似度,达到文档去重的目的,经实验证明该方案提高了去重精准度。
其他文献
今年一季度经济数据公布,GDP同比增长7.4%,虽然增速下滑,但仍在合理区间,而消费却以两位数的比例增长,对经济增长的贡献率也在增长,成为突出的亮点。这个亮点不仅当前值得关注,而且值得长期关注,因为这直接关系到对投资标的的选择。  我国经济目前正处于调结构与转型升级的阶段,依靠消费拉动经济增长的效应已开始显现,对证券市场的结构性行情的影响也日渐明显,去年以来以TMT为核心的大消费概念股的走强,就是
金融业作为现代经济的核心,是宏观调控与资源自然配置的途径,也是推进社会发展、文明进度的不可缺少的重要部分;银行业作为金融业的核心组成部分,已成为国民经济的运转枢纽,
目前,医学院校大学生创业服务体系还处于探索阶段,尚存一些经验和不足。文章根据当前创业服务体系存在的不足,提出了从政策服务、课程体系建设、资金服务、创业平台搭建等方
<正> 刘敏如(成都中医学院教授) 子宫内膜异位症的主要症状之一是渐进性痛经。中医认为,子宫内膜异位症属血瘀证。笔者认为,本病症涉及痛经、月经失调、不孕、症瘕等多个病种
游泳救生工作在人民群众游泳活动的开展过程中能有效地保障人民的生命安全,起到"挽救生命、减轻伤残"的关键作用。本研究采用文献资料法、访谈法、问卷调查法、数理统计法对
A酒店作为一家国际化的五星级酒店,每年在员工培训项目上投入了大量的人力物力和财力,但是培训效果却不尽如人意。本文提出了在员工培训中引入PDCA质量循环机制,构建了基于PD
目的探究产后接受生物反馈、电刺激与盆底肌锻炼对盆底康复的影响。方法选取该院2012年4月—2015年12月收治的400例足月分娩产妇,按照开始接受治疗的时间分为4组,每组100例,
随着当前的知识经济快速发展以及会计当前职业环境出现了重大变化,在会计方式、模式以及理念方面也存在巨大的变化,所以,在财务会计方面需要进行重大的创新以及变革,这样才能
以菲尼的多族群认同问卷设计为基础、结合前期对仫佬族的访谈结果编制出《广西仫佬族民族认同调查问卷》,随机抽取312个不同性别、年龄、地域、职业和学历的样本,从民族认同
海富通基金指出:经济疲弱和业绩压力促发市场乐观情绪降温,市场关注重点从小市值公司开始向大盘蓝筹兼顾,但是大盘蓝筹缺乏持续上涨的动力。预计上证综指和创业板二季度都将呈现