藏文文本复制检测技术研究

被引量 : 2次 | 上传用户:hualanfengyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本是互联网信息资源的一种主要存在形式。随着互联网的不断发展和网络数字资源的日益丰富,给人们提供了资源共享和信息交流的便利平台。已经成为人们信息获取的重要来源,同时为广大科研工作者和师生提供了便捷的学术交流机会。一个文本经过增添删改字词或改变说法重述之后便可以形成新的文本,这种行为称为文本的复制或抄袭。文本复制检测技术就是防止这种行为、保护文本知识产权、端正学术风气和提高信息检索效率的重要手段。目前,中英文文本复制检测技术较成熟。但由于藏文与中英文语言天然存在差异,诸多中英文自然语言的复制检测技术并不能完全适用于藏文,也无法用它们来检测藏文文本的复制率。这一空白导致了很多民族高校和藏学研究者出现了论文质量低、学术气氛差和学术创新难以提高等现象。那么,如何针对这种现象设计并实现藏文文本的复制率检测系统是本课题研究的重点。经过分析中英文复制检测结果,发现一般抄袭者所抄袭的最小单元不会小于句子这个粒度。因为句子是文本内容中具有完整语义的基本文本单元。因此,本文是基于藏文句子级别的复制检测方法,利用空间向量的余弦相似度算法计算藏语句子的相似度。该算法的关键是选取特征向量,用特征向量生成向量空间模型,最后计算余弦相似度。文中对文本复制检测技术进行了研究。根据文本复制检测的基本步骤对藏文文本进行预处理、文本分块、特征提取、句子相似度计算,最后用句子相似度来度量整篇藏文文本的抄袭率。在藏文文本预处理时,考虑了编码的统一性和可存储性分别对藏文文本的编码和藏文字符编码进行了研究,将其统一转换成Unicode编码。在藏文文本分块时,采用了藏文句子边界识别方法,把藏文文本按句子为粒度进行分块处理。同时建立句子与文档的倒排索引表,减少重复句子的两两比较和定位句子的位置信息。在藏文文本的特征提取时,采用了藏文自动分词方法,用TF-IDF计算每个词的频率,构建词频向量集。其次,计算待检测文本的每个文本块与库文本的文本块之间的相似度来度量整片文本的复制率。最后,用待检测文本进行测试,对测试结果进行了比较和分析,用查准率和查全率两个性能指标评价藏文文本复制检测技术。
其他文献
随着时代的发展,人们对生活质量有了越来越高的要求,这就促使了家居的智能化发展。目前,智能家居已经被人们普遍接受,并且在人们的生活中慢慢兴起。在当前的智能家居系统中,中央处
据Fifthdomain网站2019年5月21日报道,美国赛博司令部正投资数千万美元开发能充分利用赛博空间和电磁频谱的工具。美国多份2020财年预算文件显示,美军多家赛博机构将启动项目
络脉的概念最早见于先秦至战国时期的医学著作《内经》,至今已有两千多年的历史,络病学说形成于先秦,发展于汉后,鼎盛于清代,当代又成为中西医结合研究的热点之一。通过简单
语用能力的培养是中等职业学校英语教学大纲的基本要求,也是中职英语教学的人才培养目标之一。本文针对教学和技能竞赛中存在的中职学生语用能力不足的问题,就如何培养中职学
目的:探讨MRI与CT成像差异对鼻咽癌(NPC)侵犯范围的界定及三维适形放疗靶区勾画的影响。方法:我院经病理证实的初诊NPC患者85例行CT与MRI检查,对比其向周围结构侵犯和淋巴结
<正> 由贵州历史学会、贵州大学历史系、贵州师范大学历史系联合主办的魏晋南北朝西南地区民族关系与民族经济学术讨论会暨魏晋南北朝史西南片区会,于1987年8月10日至8月14是
建立了免疫亲和柱净化-超高效液相色谱法快速测定粮食中伏马毒素B1、B2的检测方法。样品经提取后,用免疫亲和柱净化、浓缩,Waters Acquity UPLC BEH C18(50 mm×2.1 mm,1.7μ
幼儿期是人的情感发展的关键期,发展幼儿的健康情感,培养他们的社会行为,对于提高其社会水平有着重要的意义。环境是重要的教育资源,应通过环境的创设和利用,有效地促进幼儿
根据对长江三峡阶地堆积物进行的野外调查与室内分析发现三峡阶地的成因具有以下特点:构成阶地上部的河漫滩相堆积、中部的冲积砾石层与作为阶地基座的基岩平台是在不同时期
我国是世界上自然灾害最为频繁的国家之一。近年来,随着GDP的增长,自然灾害的数量和因灾而致的损失也与日俱增。未来一段时间内,因灾移民的数量还将继续增加。对于灾害移民而