基于自适应距离度量的近似重复记录检测

来源 :中国电子学会第十二届全国青年学术年会 | 被引量 : 0次 | 上传用户:studentxp2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测。该方法使用最大熵分类器标注记录对中的对应字段的关联类型;然后根据每个宇段对的关联类型,为其选择合适的距离涵数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对。在不同领域的数据集上的实验结果表明,提出的方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力。
其他文献
本文介绍了倒装焊凸点常用的UBM选取原则,结合实际情况选取了Ti作为黏附阻挡层.比较了磁控溅射和离子束辅助溅射两种工艺方法对Ti层与管芯结合质量的影响.采用纳米硬度计的划痕功能测试了Ti膜的结构强度,结果显示两种工艺对Ti膜的抗划性能影响不大.推荐生产中采用成本相对较低的磁控溅射法.
在845-859℃、6分钟的真空条件下,采用 TiAgCu焊料封接不锈钢与热等静压99﹪氧化铝.研究了TiAgCu焊料与不锈钢的反应界面,同时对影响封接结合强度与气密性的因素进行了分析,得出了控制焊接质量的处理方法.
本文介绍了一种用FPGA技术实现的电子图像旋转仪的设计原理和方法从而简化了硬件设计的复杂性.应用结果表明该电子图像旋转仪具有体积小、重量轻可靠性高的特点.同时表明了FPGA技术在数字电路设计上具有广阔的应用前景.
提出了一种根据已知的天线正面和H面方向图计算天线的三维辐射方向图的近似算法。以全向和定向天线为例,仿真比较了此算法与其他算法计算得到的天线三维辐射方向图与理论结果之间的误差。结果表明,本文算法误差较小,可以用来计算天线的三维辐射方向图。根据生成的三维辐射方向图,计算了天线的方向性系数,所得结果与理论值吻合良好。
基于CYGNAL公司的C8051F000 SOC芯片。对其SMBus总线的串行通信协议以及EPROM 24C02的功能特点进行了分析和研究,针对24C02在写入时出现的页地址卷翻问题提出了相应的解决方案。
介绍了低压化学气相淀积多晶硅薄膜的制备原理与工艺,对多晶硅成膜质量进行了详细的分析,分析多晶硅薄膜片內均匀性、片间均匀性、局部发雾和整体发雾、氧沾污产生的具体原因,并分别给出了避免这些不利因素的控制措施。优化工艺参数,制备出均匀平整的多晶硅薄膜。
电子商务的支付在网上公开进行时,支付信息很容易遭到网上黑客的袭击,如何确保在线支付信息的安全机密?如何确认交易双方的身份真实程度?如何确认电子支票的真伪?如何确保交易信息的不可否认性及交易文件的不可修改性?以及如何保证银行支付网站本身的安全呢?计算机网络的安全与商务活动过程的安全均要依靠安全技术来完成。本文针对电子商务中的安全问题,提出了网上支付的安全技术的支撑体系。
在分析软件耦合性的基础上,对OOD中如何"随需应变"的设计耦合性进行总结,并且引入设计模式,运用JDBE技术对数据库接口进行降低耦合性的设计。
信息安全技术日新月异,防火墙越砌越高,入侵检测越做越复杂,病毒库也越来越庞大,然而,信息安全的防线并未因此而固若金汤。恶意攻击层出不穷,病毒种类花样翻新,一些驻存于电脑硬盘中的恶意程序向网络上肆意传播更让人防不胜防。安全问题已经引发了用户群体乃至行业厂商的普遍性忧虑和不满,深入挖掘可信计算,并探讨可信计算平台是否是安全问题的下一个答案。
用基于HTML标签树的数据块查找方法对Web网页进行区域分割,在此基础上结合网页聚类和跨网页数据区域匹配自动识别一个网页中的动态数据区域。实验结果表明提出的方法能够提高Web网页中动态数据区域识别的召回率和准确率。