论文部分内容阅读
伴随着网络技术的迅速发展和网络中相关应用的普及,网络已经成为了人们生活中不可缺少的一部分,大部分人已经将网络世界逐渐发展成为他们自己生活、交友以及表达情感的重要平台。互联网的不断发展带动了各个行业线上发展。通关行业中,准确的产品名称和属性信息关系到商品的进出口的价格和交易量的大小,然而,随着通关数据量的不断增加和人工的输入信息的标准不统一等原因,导致了信息的统计难度的上升以及商品各个属性信息的不详细和缺失问题。基于通关数据特点,从而给了中文信息抽取和实体对齐等技术领域带来了巨大的挑战。 本文以通关数据作为研究对象,对通关数据中的商品名称和属性信息进行了实体抽取和实体对齐技术进行了研究。本文针对通关数据中属性和属性值的不对应问题,提出了一种基于特征权重的K最邻近(KNN)和词频结合的属性对应算法,针对商品名称混杂着脏信息和属性信息,提出了基于条件随机场模型,综合词性和语义属性特征,通过不断进行模型训练,从统计学的角度对商品实体进行识别。基于一些特殊的情况,本文还结合了一定的规则对商品实体进行判断和修正。实验表明,实体抽取的结果平均达到90%左右。基于商品实体对齐的工作,本文通过实体属性信息相似度和支持向量机(SVM)分类算法相结合的方法,通过一定的规则实现商品实体的对齐。首先通过互信息进行属性特征帅选,然后通过SVM实现相似商品的分类,然后基于相似商品集的属性信息相似度来判断是否属于同一实体,实体之间通过相似度进行联系,以此来构建行业知识库。实验结果表明,在相似商品的分类基础上进行实体对齐,工作效率得到了很大的提高。