基于分级匹配的维吾尔语文档相似性计算及剽窃检测方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:lwfpa1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对以维吾尔语书写的文档间的相似性计算及剽窃检测问题,提出了一种基于内容的维吾尔语剽窃检测(U-PD)方法。首先,通过预处理阶段对维吾尔语文本进行分词、删除停止词、提取词干和同义词替换,其中提取词干是基于n-gram统计模型实现;然后,通过BKDRhash算法计算每个文本块的hash值并构建整个文档的hash指纹信息;最后,根据hash指纹信息,基于RKR-GST匹配算法在文档级、段落级和句子级将文档与文档库进行匹配,获得文档相似度,以此实现剽窃检测。通过在维吾尔语文档中的实验评估表明,提出的方法能够准确
其他文献
据台湾“中央社”报道,台湾义进金公司销售的鸡蛋被验出残留违规驱虫剂后,涉嫌将回收的即将过期的鸡蛋再次出售。检调9月展开搜索并带回负责人苏文源3兄妹等人,5名被告均交保释
养好哺乳仔猪是养猪的关键,尤其是生后一周内的,死亡率最高,因此要想提高仔猪的成活率,提高仔猪断奶个体重与断奶窝重,必须要过好四关,即初生关、补料关、下痢关与断奶关。
随着养猪事业的不断进步,养猪规模的不断扩大,生猪种类和数量逐渐增多,养猪场的生猪容易发生疾病,因此,需要引起养猪户、兽医等对猪病的重视。当前,猪群发病的主要来源是混合感染及
随着农业生产结构的不断调整,生猪生产已经是农业生产中一个非常重要的部分。最近几年,我国的生猪养殖规模越来越大,有效的促进了我国农村经济的发展,现阶段,我国的生猪养殖
保育期是仔猪断奶后独立生活的时期,该阶段存在生长发育快、对疾病的易感性高的特点,因此成为了生猪饲养中的关键环节.在进入保育期后,因为生存环境、饲料形态发生了明显的变
羊小反刍作为一种畜牧类疾病对于,羊的健康与生产产生不可忽视的影响,本文从其发病的原理入手,认为在现有的情况之下病毒性发病占据主流,故而需要进行必要的精细化事前防备以
猪囊尾蚴病是肉食品卫生检验的重点项目之一,也是重要的人兽共患寄生虫病。它的病原体是寄生在人体内的猪带绦虫的幼虫—猪囊尾蚴,该囊尾蚴的危害十分严重,不仅影响养猪业的发展
当前,我国经济发展迅速,居民生活水平快速提升,市场对羊肉的需求量持续增加,肉羊养殖也逐渐趋于规模化方向发展.规模化养殖不仅可以提升肉羊生产性能,还能够保证肉羊产品的食
近几年,我国人工授精技术得到了较为广泛的普及与推广,而为了能够便于养殖操作人员在实际生产与工作中科学展开人工授精,本文也对这一项工作的技术要点进行了具体的概述。
针对文本分类特征选择方法中的卡方统计(CHI)和期望交叉熵(ECE),分析了其特点和不足。为了避免传统CHI和ECE方法在不平衡数据集上分类效果差的问题,通过引入调节因子和除去负相关影响因素,给出了改进的CHI方法(pCHI),并以加权的方式弥补ECE方法倾向于选择弱区分能力高频特征的缺陷(ωECE)。在综合两种改进后方法的基础上,进一步提出基于改进CHI和带权ECE结合(pCHIωECE)的特征