一种中文相似重复记录的检测方法

来源 :东华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:luomingasdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
要把数据表中的相似重复记录标识出来,常用的方法是先将所有记录按照某个关键字进行索引,然后在一个固定长度的窗口范围内进行记录的两两比对.这种方法的难点在于关键字的选取标准缺乏通用性.这里提出一种通用的关键字选取方法,然后在一个变长窗口内进行记录的两两比对,以此检测带有编辑错误的中文相似重复记录.
其他文献
童年,有许许多多的趣事,就像天上的星星,数也数不清。一个阳光明媚的早晨,我们一家三口都在家。爸爸在电脑房间里玩电脑,妈妈坐在化妆台前化妆,我在客厅里看电视。“碰”的一声,打破
目的:通过对23-乙酰泽泻醇B含量的考察,优选处方中泽泻的醇提条件.方法:采用正交试验法,以23-乙酰泽泻醇B含量(高效液相色谱法测定)为考察指标,对泽泻醇提的加醇量、提取时间
目的:为控制斑蝥搽剂的质量,建立斑蝥素的含量测定方法.方法:单波长快速薄层扫描法.结果:斑蝥素的点样量在10.5~50.5μg范围内时线性关系良好,相关系数r=0.9994,回收率99.0%,R
中小企业是我国国民经济和社会发展的重要力量,研究中小企业融资方式的选择具有重要意义。本文以科创板上市的100家企业为样本,通过选取变量、创建多元回归线性模型,运用SPSS
研究了用范成法生成椭圆齿轮齿廓的方法.在此基础上实现了基于SolidWorks API的椭圆齿轮的参数化设计、加工仿真和程序自动造型,并为进一步进行有限元分析、计算机模拟刀具轨迹
高尔基曾经说过:“最难的是开始,就是第一句话”。教师的导语和学生对新知识的渴求、学习的效果、参与教学的程度有很大的关系。因此,我们当教师的要精心设计好课堂中的导语,力求
目的:羚羊角是名贵中药,本文对中成药羚羊清肺丸中羚羊角的含量进行了研究.方法:以被测物自身为标准,代替参比物,并采用容量分析法配合显微定量法测定羚羊角的含量.结果和结
对学生进行思想品德教育,培养学生高尚的情操和共产主义道德品质,是无论哪一学科、哪一位老师都应做到的。然而,只有结合学科特点,才能取得事半功倍的效果。
以"图元构造"和"函数模拟"的思想在B-3次样条曲线上绘出规则和不规则服装细节图案,突破了以往服装CAD设计中手工绘制细节图案的传统.生成的细节图案参数可控,细节图案可调,并
目的:观察姜黄素对二甲基亚硝胺(DMN)诱导的大鼠肝纤维化形成的影响.方法:采用DMN诱导大鼠肝纤维化,期间给予灌服姜黄素(50,100,200 mg/kg)并设马洛替酯组(90 mg/kg)作对照,