云环境下支持模糊匹配的文本查重技术研究与实现

来源 :北方工业大学 | 被引量 : 2次 | 上传用户:zzzj1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前科技部查重工作需要进行比对的文件规模巨大,经统计每年的各类申报材料达近十万篇,字数可达几千万字且数据规模逐年增加,因此传统的单机处理系统无法满足条件。本系统采用了云计算的分布式存储的优势将大量的文本数据存储到云平台上,再借助云平台并行计算的高效性将海量文本查重工作得以快速实现。在文本上进行精确的子串查询是工业界和学术界中的一个常见应用,同时也是子串近似匹配的一个基础操作。这种方式虽然简便且直观,但是得出的结果有一定局限性。例如,通常两段看似重复的文字,用上述字符匹配的方式并不一定能查出,因为大多是加上一些无意义的“停止词”(Stopwords)或者将主谓宾顺序颠倒等方式来规避这些查重系统的检测,所以传统方法在查全率方面受到了极大挑战。通过分词方法去掉一些停止词或虚词是目前逐渐被采用的主流方法。在这种方法下,如何合理的分段和分词成为提高查全率和查准率需要解决的关键问题。目前用的比较多的是按句分词比对的方式,由于句子长短不一,大部分比较出来的结果在实际中作用不大,却会对整体相似比有较大影响。本文在利用分词手段的基础上,提出了 一种构造矩阵模型的比对算法和矩阵扫描的策略,使得传统的对文本的比对操作转换成对矩阵的扫描分析工作。利用MapReduce实现了对算法的整合,并利用其高效并行计算的特点进行对算法处理能力的优化和提高,并探讨了与快速精确字符串匹配算法的优势之处。在此基础上,设计并实现了 一套基于Hadoop的分布式文本查重系统,该系统已在科技项目文本查重中得到了应用,本课题采用的矩阵模型分析文本片段的研究方式和分布式系统的流程设计与实现对此类问题的研究和发展有一定的启发和实用价值。
其他文献
以Ueshima的正六边形横断面枝晶模型为原型,采用有限差分方法建立了钢凝固过程伴随δ/γ相变的两相区溶质微观偏析模型,浅析了冷却速率10℃/s非平衡凝固条件下,钢的脆性温度
为便于多种材质的生产,提高生产效率,同时提高铸件的表面质量和尺寸精度,2000年工厂对原有的水玻璃和粘土砂工艺进行了改造,全部采用呋喃树脂砂生产工艺。用呋喃树脂砂生产的铸铁
高锰钢是抗冲击磨损的典型耐磨钢,用于制造球磨机衬板、锤式破碎机锤头、鄂式破碎机鄂板、圆锥破碎机轧臼壁和破碎壁、挖掘机斗齿和斗壁、铁道道岔、坦克和钩机的履带板等抗冲
<正>我在刚刚从财经大学毕业的时候,就做了一个在同学看来很草率的决定:我很快就找了一个有钱的商人结婚了。他是干房地产的,虽然,他还不是大地产商,只是一个很小的地产商,在
期刊
准确把握新疆少数民族大学生国家意识、民族意识的基本现状,是开展国家观、民族观教育的基本前提。本文通过对新疆高校少数民族大学生国家意识、民族意识的调查研究,结合不同
分析了纯电动矿用卡车车架轻量化的必要性,并建立卡车车架设计空间有限元模型,选择矿用卡车行驶的极端工况作为约束条件,设置体积最小化为目标函数,通过拓扑优化得到车架设计
目的:分析新疆喀什地区结核分枝杆菌(MTB)临床分离株对4种一线和7种二线抗结核药物的耐药情况,初步探讨本地区耐多药结核病(MDR-TB)和广泛耐药结核病(XDR-TB)的流行情况。方
<正> 10月17日下午,位于平遥古城正南门的一段古城墙突然坍塌。平遥文物局工作人员认为,倒塌的墙体可以说是古代的“豆腐渣工程”据这位文物工作者说,这段古城墙修建于明清时
期刊