【摘 要】
:
随着电子商务飞速发展,互联网上的商品信息量呈“爆炸式”的发展,出现信息过载问题。为了改善用户购物体验的购物搜索引擎和个性化推荐服务等应用,都需要能将网上各式的商品
论文部分内容阅读
随着电子商务飞速发展,互联网上的商品信息量呈“爆炸式”的发展,出现信息过载问题。为了改善用户购物体验的购物搜索引擎和个性化推荐服务等应用,都需要能将网上各式的商品与它所属产品对应起来,进行“信息降维”。同时将互联网上同属一个产品的商品信息融合,有助于数据挖掘和知识发现。本文设计了产品库平台系统整体架构模型:它能自动处理海量的网上商品,识别这些商品属于哪个产品,并更新产品库;自动融合每个产品对应的网上商品的信息,包括产品规格资料和评论信息;并且作为一个基础平台为其它应用提供服务。本产品库平台与现存人工整理的产品库平台不同,是一个所有处理过程都是自动化的产品库平台。本文重点研究了如何借助了IR(information retrieval),自然语言处理以及机器学习等技术,设计算法来进行商品所属产品的自动化识别。本论文根据商品数据的特点,在产品识别中的特征提取部分,研究了商品标题中属性实体识别和商品属性规约问题。在商品标题中属性实体识别问题中,由于经典的命名实体识别算法具有较低的命名实体覆盖率(有限的人工训练和识别),需要人工干预,不能自学习(适应)商品数据的变化的局限性,本文提出改进算法:基于商业词库的属性实体识别算法,并用实验证明改进的有效性。在商品属性规约问题中,根据现有的基于频率统计方法正确率和召回率都较低的现状,改进了商品规约算法,并用实验验证了改进的有效性。在前面改进的基础上,本文设计并实现了完整的产品识别算法,并改进其中的产品分类算法使其能完全自动化,同时用实验证明整体算法的效果。
其他文献
动态二进制翻译解决了软件的跨平台问题,使得不同处理器之间的二进制程序可以很容易地相互移植,同时扩大了软硬件的适用范围,打破了处理器和支持软件之间互相依赖的局面,因此
研究发现各种复杂网络都具有社团结构,正确高效地将网络划分为合理的社团是有效地理解和利用这些网络的前提,找到网络社团划分的精确解是一个NP难题,当网络规模很大的时不存在有
随着科学技术的不断进步,人们生活水平的不断提高,家居生活智能化已经成为一种趋势。舒适性不再是家居生活的唯一的标准,安全性、智能型越来越受到人们的重视。而现代家居火
面向服务的体系架构(Service-Oriented Architecture,SOA)是近年来信息技术领域中的重大热点之一,被广泛用于异构系统的集成。SOA凭借自身松耦合的特性,使得企业可以按照模块
网络计算模式把计算任务交给各种分布的计算资源,而数据的存储集中于具有按需部署功能的存储设备或系统中,即存储在存储资源中的系统数据不再属于某一特定的计算主体,而是可
随着汽车技术的发展以及在人们生活中的普及,我们对于车载网络的容错功能和带宽有了更高的要求,现有的汽车总线系统例如CAN总线已经逐渐难以满足大量的数据通信的要求,因此新
目前,研究网络安全态势的方法大多是对数据源上日志数据进行关联、处理和分析,得出当前网络态势情况,进而对网络安全态势进行预测。然而这种方式存在诸多问题。网络中各种网
3D地震勘探项目中常常使用手持GPS或者是高精度GPS-RTK设备进行测点定位。数以万计的炮点和测点位置的测定、遍历,所需时间、人力以及高精度仪器价格等因素均推高了地震勘探
经济全球化和多样化使得企业从“以产品为中心”向“以客户为中心”转变,客户关系管理(CRM)成为企业竞争力的一个重要方面。利用数据挖掘技术分析这种海量的CRM数据,可以挖掘
继互联网之后,物联网逐渐走进了人们的日常生活,随着物联网应用的普及,信息产业化再一次得到变革。而无线传感器网络(wireless sensor network,WSN)作为物联网发展的核心技术之一,