基于汉字机内编码的中文相似重复记录消除研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:tjkjkfzx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种利用汉字机内编码特点的相似重复记录相似度计算算法,并对Apriori算法进行了改进。利用改进后的Apriori算法获取数据库记录的频繁集,消除进行比较记录的共有项,有效提高相异字符的计算权重,提高相似度计算的准确性。在车辆检测数据库中对该算法进行了实验,取得了较好的实验结果,证明该算法具有较好的实用价值。
其他文献
我们经常用Excel录入学生成绩并进行处理,但在Excel表格中输入完一个单元格数据后按回车键,光标会自动跳转到下一行同列的单元格中,若要输入其它列的数据,只能手动将光标移至
期刊
随着Internet的迅猛发展,人们已经不满足在网络上传输简单的文本信息,更加丰富的多媒体信息,特别是连续的媒体内容已经开始在互联网上普及。该文介绍了面向网络传输的视频编
12月13日,《纸客帝国》进行了公测,笔者禁不住诱惑,又来体验了一番。有一点小小的经验之谈,希望能对新手朋友们有些许帮助。  进入游戏之后,由于我们对这个世界还不熟悉,所以我选择进行新手训练,在这个新手训练中,可以学到走路啦、特殊键的使用之类的基本知识。大家千万不要小瞧这些新手训练而轻易的跳过它,这些技能的熟练应用,才能保证我们在游戏中立于不败之地。后面我还会重点讲到E键的应用。    选好我们的
目的观察矽肺合并高血压病患者的心理护理干预方法与效果.方法:选择矽肺合并高血压病患者100 例,根据随机数字表法分为治疗组和对照组,每组各50 例.对照组患者给予常规治疗与
中老国际通道玉(溪)磨(憨)铁路累计完成投资106.8亿元,占总投资的21.1%。目前,铁路建设者们正在加紧施工,全力加快推进项目建设。为加快推进玉磨铁路建设,全线22个控制性工程