论文部分内容阅读
由于传统的购物网站已经不能满足用户的需求,比较购物模式因此应运而生。消费者可以在比较购物的网站对上百个商家对某个商品在价格,运费,折扣,三包等各项服务参数的筛选后,找到性价比最优惠的一个商家来购买自己需要的这个商品。不过由于比较购物网站需要海量级的商品信息量来涵盖各行各业的商品,但是有些商家提供的他们所要出售的商品信息数据文件不是很完整,这就导致了海量的未能和我们数据库自有的商品信息匹配的商家商品数据的产生,不能匹配就意味着无法将商家提供给我们的商品信息上线。然而,用人工来对这些海量的未匹配商品进行逐个分类匹配来说将是一个巨大的工作量。因此,开发出一套智能化的商品自动分目录系统在网站的规模日益壮大之后是项迫在眉睫的工作。本系统分为3个大的模块,Generate Knowledge Dic DB模块,GenerateKnowledge DNA DB模块和Classify Data模块。第一个模块是将程序根据学习机所生成的,经过人工review的字典(该字典记录在数据库),将对学习集及新录入的数据进行Normalize。这个模块中牵涉到英文分词以及中文分词技术的处理。在英文分词的处理上,我们采用了Replace some symbol and Stop word,Spell Check,Stem,Alias这几个步骤来达到最终的分词结果。性能和准确度上均比较理想。中文分词的处理上我们借鉴并发展了了一些优秀的算法和数据结构模型,由于用JAVA语言来实现,目前在性能上还不是很理想。第二个模块是负责生成一条条的DNA权值数据记录,这些数据记录将对第三个模块的处理产生直接的主导作用。第三个模块即是通过调用前2个模块的接口来对未匹配的商品进行自动分目录。这个系统的成功上线解决了公司在处理海量未匹配商品信息数据由人工向程序自动化处理转变的格局,极大的节省了公司的人力和物力,意义重大。在不久的将来我们会进一步改进匹配的准确度和系统的性能。