基于文本复制检测技术的核查比对系统的设计及实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wjjcj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,互联网的应用越来越广泛,为人们的工作、学习、娱乐、沟通交流提供多元化的便捷途径,各行各业的计算机办公化越来越普及,大量的文档中存在相似的信息。而对于我国特殊行业,文档的保密性受到巨大的威胁,如何实现文档的管理以及利用归档的文档快速的找到相似的内容,是本系统研究的重点。文档复制检测技术主要用于检测文本之间相似性及相似内容的重要技术,该技术从20世纪90年代发展至今,已经有很多技术能够实现针对中文文字内容的复制检测。本文以特殊行业的敏感文档作为资料库,面向大量互联网的电子邮件附件、文件传输附件、即时通信附件的数据环境,准确并且快速的检测出与敏感文档之间的相似关系,实现对敏感内容的违规泄密进行核查比对,为客户单位的文档鉴定提供重要的线索及依据。本文主要对敏感信息内容的资源管理及核查比对进行系统分析。根据客户单位的数据分析和业务分析设计,实现了敏感文档资料管理子系统和核查比对子系统,该系统的投入使用能够解决人工处理效率低出错率高等一系列问题,提高文档的检测准确度,为国家敏感信息保护乃至社会稳定的维护做出贡献。敏感文档资料管理子系统支持敏感样本文档的录入、校核、维护、下载、预览等功能;核查比对子系统支持对不同业务平台待检测数据文件的在线导入、文档的离线上传,并展示出与资料库子系统那些文档内容相似度高的信息,提供标准化的文档评审流程。系统通过对文件的文字内容提取处理和预处理得到纯文本内容,再进行降噪、去停用词、分段划句,与资料库中文档之间实现两篇文档的段落、相似句子的比对,采用基于语句多特征相似度计算方法计算语句之间的相似度,同时利用编辑距离相似度计算方法计算段落之间的相似度,最终将语句相似度和段落相似度结合起来计算两篇文章的综合相似度。基于文本复制检测技术的核查比对系统已经在客户现场正式投入使用,通过为期三个月的试用期,系统整体运行良好,能够真正的为客户单位的资料管理和文档核查比对提供有力的技术支撑。
其他文献
以七角井盐湖高盐环境的盐生细菌为研究对象,探索嗜(耐)盐细菌的多样性及产酶特性。通过采集七角井盐湖的15份土样,选用分离培养基分离嗜(耐)盐细菌菌株,应用多相分类技术鉴
在翻译学界的学术研究及具体实践中,交替传译笔记一直都是一个讨论热点,而其中笔记符号的训练与应用尤其受到关注。本文将以第八届拉美峰会企业家论坛模拟会议为例,讨论西班
改革开放以来,我国经历了两次较大的企业并购浪潮,1984年保定纺织机械厂对河北针织器材厂的收购开启了我国企业兼并的先河。随后的几年间,企业并购如雨后春笋般接连出现,席卷了全国各个地方。这便是我国第一次并购浪潮。据有关部门统计,全国38个省市在1989年这一年,就有2559家企业被兼并,涉及资产超过20亿元,减少亏损企业1204家。第二次并购浪潮一般认为出现在1992年以后,随着上交所与深交所两大证
运用OM、SEM对两种典型加氢反应器全焊缝高温持久试样的断口形貌和组织进行分析,探讨高温持久断裂的机理。试验结果表明,持久性能好的试样断口为脆性断裂,缩颈小,难变形;而持
美容局部解剖学是培养美容医务人员必修的一门重要基础医学课程.模块式教学法以临床应用为中心,将美容局部解剖学理论紧密联系临床实际,让学生学会运用所学解剖学知识来分析
低共熔溶剂(DES)中的聚合物合成与加工正在吸引越来越多的研究关注。由于大多数聚合物在DES中溶解度很低甚至不溶,因此寻找良好互溶的聚合物-DES配对或基于聚合物的低共熔溶剂体系具有重要意义。经过大量筛选,本论文研究首次发现PEG/ZnCl_2/EG、Boltorn/PEG和PEI/EG等三个具有良好互溶度的聚合物-DES体系或基于聚合物的DES体系。通过对上述体系的热力学及动力学性质的测定与相关
行为识别一直以来都是计算机视觉领域的热门研究内容,其应用前景非常广泛,经济效益也颇为可观。当前行为识别领域一直致力于对可见光视频进行分析研究。近年来不断有新的技术
多民族国家构建指的是在多元文化下的民族国家通过一系列的政策、措施促使国家整合,达到国家内部民族一体化的目标。当今世界几乎不存在由单一民族组成的国家,因此世界上的多