基于文本挖掘的地址分类研究及应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:liongliong566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
物流企业依据包裹上的地址信息将其准确分拣到相应的投递区域。长期以来,企业往往通过人工分拣来完成这一环节的工作,但人工的大量介入却带来了包裹投递成本高,投递效率低等问题。近年来随着人们对智慧物流的建设需求愈发强烈,自动化地址分类成为大势所趋。本文主要基于传统机器学习及深度学习算法对地址分类问题进行探索,构建了性能优良的分类模型,为自动化分拣提供了新的思路。具体研究内容如下:1)本文利用传统机器学习方法构建了基于集成学习的地址分类模型。通过对地址数据集语法结构特点的观察,制定了相应的文本清洗方法,并提出基于正则表达式和分词的地址切分方法,以此在不借助人工构建地址要素词典的情况下完成地址切分和词袋特征构建。之后基于信息熵进行词袋特征的筛选,并利用主成分分析算法完成特征降维。在最终得到的词袋特征上训练随机森林基分类器。结合TFIDF权重和word2vec方法得到地址文本的语义向量,并构建Softmax基分类器。最后利用Stacking方法训练二级分类器,并得到分类结果。通过与其他传统机器学习方法进行比较,该模型表现出较好的分类效果。2)本文利用深度学习方法建立地址分类模型。针对模型无法有效对含错别字样本进行建模的问题,提出一种基于自注意力机制的多通道地址文本分类模型(MCC),以增强模型对含错别字样本的分类能力。模型基于对Transformer的改进,引入了多种编码方式挖掘文本隐含的语义信息,使模型在遇到含错别字词语时可以借助其他通道进行文本信息的表示。实验表明本文提出的深度学习模型对地址数据能够取得较好的识别效果,精确率,召回率,F1值分别达到了0.9227,0.9264,0.9242。同时模型能在处理含错别字的地址样本时表现出更强的鲁棒性。3)为了加速自动化地址分类方法在实际生产环境中的应用,本文基于Python的Flask框架开发了地址分类服务,服务集成了模型训练、模型评估、模型应用等模块,并提供了对地址进行分类预测的功能,同时用户可以上传自己的数据集并在其上训练模型。
其他文献
<正>美国FDA于2012年1月17日批准glucarpidase(羧肽酶,商品名为Voraxaze)用于治疗因肾功能衰竭而导致的甲氨蝶呤中毒(血液中甲氨蝶呤水平过高)。甲氨蝶呤是一种常用的抗癌药,
当前的预算改革还只停留在加强对预算的内部行政控制阶段,还没有进入到预算的法制化程度。我国要建立起现代公共预算制度,需完成从行政控制到法制化,从法制化到民主化的过程,
严格产品责任已经风靡了50多年,我国法律界在未论证其正当性的情况下就予以了借鉴。损失分散理论、威慑与激励生产者提高产品安全性以及危险责任理论,是严格产品责任最重要的
中国歌剧是歌剧艺术20世纪初期传入中国后与本土已有的艺术形式相结合产生的独特的艺术形式,是中外戏剧相结合相交融的结果。纵观中国歌剧发展的大半个世纪以来,虽然一波三折
近年来,识别疾病的相关基因成为生命科学领域富有挑战性的工作之一。传统的预测疾病基因的方法有连锁分析(Linkage Analysis)和关联研究(Association Study)。但是连锁分析方
在犯意转化情境之下,某些犯罪的罪与非罪界限问题会变得模糊,犯罪停止形态、罪数等问题也会变得具有争议性。应明确中止犯的自动性作用于具体明确的犯意而非抽象概括的犯意,
目的优选复方西洋参泡腾片的最佳制备工艺。方法以总皂苷为评价指标,采用正交试验优选西洋参的水提条件;采用单因素考察法优选浓缩、干燥工艺及泡腾片的成型工艺。结果西洋参
吉林省在国家“一五”期间奠定现代工业基础,在我国几十年社会主义经济建设中做出重大贡献。自改革开放以来,吉林省与其他地区经济差距逐渐加大。在国家实施东北老工业基地振
《行政强制法》第44条规定了行政机关强制拆除违法建筑的特别程序,对于保障当事人合法权益,规范强制拆违行为具有里程碑意义。为了解析第44条的具体含义,促进强制拆违行为的
精品课程建设是教育部质量工程的重要组成部分,经过几年的努力,精品课程建设从数量到质量都取得了巨大的成就,建设课程学科门类多分布地区广,并逐渐形成了国家级、省级和校级