一种用于中文数据清洗的近邻排序算法

来源 :计算机应用与软件 | 被引量 : 0次 | 上传用户:sxdinfo958
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决传统近邻排序算法(SNM)在中文重复值数据清洗中的不足,提出基于中文分词和同义词检查的重复值清洗算法。传统SNM算法主要适用于英文,英文和中文存在以下两种明显差异:英文语义和时态基于单词;中文语义基于词语,时态基于语义。以上两种差异造成了英文重复值清洗的算法SNM不能很好地应用于中文重复值清洗中。算法的基本思路是:引入编辑距离来计算近似度;采用中文分词和同义词检查的方式优化编辑距离相似度算法,改进后的算法可以对中文语句或者字段进行有效重复值清洗的工作。通过对供应商商品库存数据集的实验,结果证明该算
其他文献
病案作为记载医疗行为的文书和诊疗信息的集合,在医院医疗、医学生教育、相关科研活动中发挥了重要作用,不仅对医疗、教学、科研具有指导作用,而且为医院管理、科研统计、医疗质
叶黄素是眼睛视网膜和晶状体内惟一被发现的类胡萝卜素。国外研究表明:叶黄素能够预防眼睛光损伤,防止因叶黄素缺失引起的视力退化和失明症,以及因机体衰老引发的心血管硬化、冠
目的 探讨喉结核的临床特征和CT诊断要点.方法 将50例喉结核患者的临床资料和CT做回顾性分析.结果 研究期间一共50例原发性喉结核患者,40例(80%)伴有颈部淋巴结病,15例(30%)的患
概述了如何综合应用射击理论、搜索理论、仿真理论、博奕理论、线性规划、排队理论和随机规划等运筹学方法计算舰艇编队超视距导弹武器系统的作战能力。文章就系统结构、仿真
论述了二基分布的Bayes截尾序贯概率比检验(SPRT)方法,提出了平均风险相当的原则,即要求αβ,从而使Bayes SPRT方法更趋势合理,并且推导了出了Bayes风险定量,指Bayes方法的应用价值。另外还讨论了Bayes尾SPRT方案的平均风
【正】 笔者以前曾经在《中国—社会和文化》1.(1986.6)上发表了题为《关于【警世通言】的版本——以佐伯文库本和都立中央图书馆为中心》(以前称为前稿)的一篇文章。正如副
本文在对金属-土壤摩擦机理讨论的基础上,提出了用非牛顿流体方程描述摩擦阻力与滑动速度的关系。并结合应变率过程理论,推导了摩擦阻力与滑动速度、正压力之间的关系式。作
《中国医院知识仓库》(CHKD)是针对各级各类医院而设计的医学期刊全文数据库,信息量大、学科覆盖面广,我院自2003年购买了CHKD并通过医院内部局域网全院共享,为医疗、教学和科研提
大部分菌菇含有丰富的蛋白质、多糖等,且含有一般蔬菜缺乏的8种氨基酸,既能饱人以口福,又有滋补强身、防病治病的功效,使人益寿延年[1].药用、食用真菌(指长有子实体或菌核、