比较购物网站中海量产品信息自动分目录功能的设计与实现

被引量 : 0次 | 上传用户:clarain
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于传统的购物网站已经不能满足用户的需求,比较购物模式因此应运而生。消费者可以在比较购物的网站对上百个商家对某个商品在价格,运费,折扣,三包等各项服务参数的筛选后,找到性价比最优惠的一个商家来购买自己需要的这个商品。不过由于比较购物网站需要海量级的商品信息量来涵盖各行各业的商品,但是有些商家提供的他们所要出售的商品信息数据文件不是很完整,这就导致了海量的未能和我们数据库自有的商品信息匹配的商家商品数据的产生,不能匹配就意味着无法将商家提供给我们的商品信息上线。然而,用人工来对这些海量的未匹配商品进行逐个分类匹配来说将是一个巨大的工作量。因此,开发出一套智能化的商品自动分目录系统在网站的规模日益壮大之后是项迫在眉睫的工作。本系统分为3个大的模块,Generate Knowledge Dic DB模块,GenerateKnowledge DNA DB模块和Classify Data模块。第一个模块是将程序根据学习机所生成的,经过人工review的字典(该字典记录在数据库),将对学习集及新录入的数据进行Normalize。这个模块中牵涉到英文分词以及中文分词技术的处理。在英文分词的处理上,我们采用了Replace some symbol and Stop word,Spell Check,Stem,Alias这几个步骤来达到最终的分词结果。性能和准确度上均比较理想。中文分词的处理上我们借鉴并发展了了一些优秀的算法和数据结构模型,由于用JAVA语言来实现,目前在性能上还不是很理想。第二个模块是负责生成一条条的DNA权值数据记录,这些数据记录将对第三个模块的处理产生直接的主导作用。第三个模块即是通过调用前2个模块的接口来对未匹配的商品进行自动分目录。这个系统的成功上线解决了公司在处理海量未匹配商品信息数据由人工向程序自动化处理转变的格局,极大的节省了公司的人力和物力,意义重大。在不久的将来我们会进一步改进匹配的准确度和系统的性能。
其他文献
本文考察了我国转轨时期各个地区金融组织成长与经济绩效的关联性问题,通过金融组织视角探究我国东中西部发展存在巨大差距的原因。本文通过实证分析,认为金融组织通过规模的
本文综述了评价员工绩效的几个递进的解决方法:计件工资与工时研究法、纵向相对业绩比较法、横向相对业绩比较法(锦标制度),并在此基础上运用博弈论的委托代理模型提出了量化
目的探讨心电图诊断高钾血症的临床应用价值。方法选取我院2014年1月~2016年2月期间收治的117例高钾血症患者纳入研究,依据不同的血清钾浓度划分为Ⅰ组39例(5.5~6.9mmol/L)、
分析了LED光源的原理、性能,介绍了隧道照明的特点,探讨了LED光源在隧道照明中的应用优势。指出LED光源具有良好的照明效果和超长免维护期,能有效降低运营成本,在隧道照明中
介绍基于89C51单片机的一款临时停车场自动停车收费管理系统,该系统采用比传统停车计费方式更优越的红外线检测计费方式,可以实现自动计费,实时查询、显示停车场状况,打印数
海外学历教育是学历教育的重要组成部分,人事档案管理中对国内学历教育应归档材料已有详尽规范,基本能全面反映求学期间的学习、思想等情况,满足人事考察的需要。但留学人员
已有的实物期权框架下房地产投资方面的研究长期以开发商为建模对 象,却忽视了对个人房地产投资者的建模研究。本文在房地产价格随机条件下对出 售房产的投资问题进行了建模,
目的比较南郑县2011—2012年狂犬病暴露者伤口处置间隔时间、狂犬病疫苗、狂犬病人免疫球蛋白接种(使用)率和24小时内及时接种(使用)率,为改进防控措施提供信息和依据。方法汇总
竞技体育软实力是相对于竞技体育硬实力而言,它隐藏在竞技体育硬实力中并持续支撑着硬实力地提升;竞技体育软实力是一个高度融合的集合体,具有五个核心要素,三个方面的核心内涵,六
目的:探讨润肺百花膏对肺阴亏虚证慢性咳嗽大鼠模型的症候干预作用及对炎症因子IL-6、IL-17表达的影响,为润肺百花膏治疗慢性咳嗽提供理论依据。方法:将70只雄性SD大鼠随机分