基于机器学习与相似扩展集的通关数据实体对齐技术研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:ti110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着网络技术的迅速发展和网络中相关应用的普及,网络已经成为了人们生活中不可缺少的一部分,大部分人已经将网络世界逐渐发展成为他们自己生活、交友以及表达情感的重要平台。互联网的不断发展带动了各个行业线上发展。通关行业中,准确的产品名称和属性信息关系到商品的进出口的价格和交易量的大小,然而,随着通关数据量的不断增加和人工的输入信息的标准不统一等原因,导致了信息的统计难度的上升以及商品各个属性信息的不详细和缺失问题。基于通关数据特点,从而给了中文信息抽取和实体对齐等技术领域带来了巨大的挑战。  本文以通关数据作为研究对象,对通关数据中的商品名称和属性信息进行了实体抽取和实体对齐技术进行了研究。本文针对通关数据中属性和属性值的不对应问题,提出了一种基于特征权重的K最邻近(KNN)和词频结合的属性对应算法,针对商品名称混杂着脏信息和属性信息,提出了基于条件随机场模型,综合词性和语义属性特征,通过不断进行模型训练,从统计学的角度对商品实体进行识别。基于一些特殊的情况,本文还结合了一定的规则对商品实体进行判断和修正。实验表明,实体抽取的结果平均达到90%左右。基于商品实体对齐的工作,本文通过实体属性信息相似度和支持向量机(SVM)分类算法相结合的方法,通过一定的规则实现商品实体的对齐。首先通过互信息进行属性特征帅选,然后通过SVM实现相似商品的分类,然后基于相似商品集的属性信息相似度来判断是否属于同一实体,实体之间通过相似度进行联系,以此来构建行业知识库。实验结果表明,在相似商品的分类基础上进行实体对齐,工作效率得到了很大的提高。
其他文献
本课题主要研究了小波变换在心电图数据处理中的应用。小波分析是一种优于传统信号分析方法的时频分析方法,由于同时具有时域和频域的良好局部特性及自动调节时频窗的特点,可以
本文首先全面阐述了蓝牙技术的分层协议体系结构,对蓝牙射频、链路控制器和基带、链路管理协议、逻辑链路控制和适配协议、服务发现协议、RFCOMM等协议进行了详细的介绍和分析
学位
该文将基于对SOAP技术进行的深入研究,探讨一种新的、能实现异构组件互操作的解决方案.论文2.1节先从总体上介绍并分析了组件技术及组件互操作机制,阐述了文中异构组件互操作
该文题目为:基于CRM数据挖掘的移动客户细分模型建立与分析.在该文中,作者对CRM以及相关领域进行了比较深入的研究,在阐述CRM及数据挖掘技术基础上,根据移动客户业务需求,设
Internet的开放性和商业化促使越来越多的局域网络加入到Internet中,在网络资源共享带来巨大利益的同时,网络的开放性也带来了系统入侵等安全性问题,因此如何在开放的Interne
论文采用J2EE构架和分布式数据库技术对网上股票模拟交易系统进行了实验和研究.主要结论如下:①采用J2EE技术来架构整个应用系统来满足模拟交易系统的无需太多费用而又需要高
随着医疗信息系统的不断完善和改进,各医院存储的电子病历的数据种类越来越多,数据量也越来越大,对于电子病历的分析和研究已是一个具有挑战性的课题,如何将此部分数据合理的利用
该文对基于关联规则的数据挖掘算法进行了研究,对经典的频繁项集计数算法进行了改进,提高了关联规则数据挖掘的效率,并应用改进算法对税收数据信息库进行了实验性挖掘分析.主
该文中,我们首先分析了传统的基于Web的远程教育环境的优点和缺点.接着我们讨论了Data Mining & Web Mining技术的发展背景、知识发现的过程和步骤、典型数据挖掘系统结构,以