论文部分内容阅读
在知识信息时代,互联网的作用与影响不言而喻,它不仅影响着我们的生活习惯,而且提高了我们的生活质量。随着电子商务网站的不断发展,在电子商务网站上浏览产品的信息也变得十分方便。但电子商务网站主要特点是买卖关系,其实质是以盈利为目的。这个特点导致了许多产品的信息是由中间商提供的。对于产品,网站往往只给出价格、图片、介绍等信息。同时,展示什么样的产品给用户、如何在海量的产品中根据用户的喜好推荐产品也是当前所面临的问题。随着用户需求的不断提高,目前的电商网站已经不能满足用户的一些特殊的需求。例如:一个创业者想要个性化的搭配自己的汽车零部件,从成本方面考虑,该用户想了解这些零部件的生产商,选择自己喜欢的方向盘,选择自己喜欢的车灯,所有的零部件并不一定来自同一个生产商。对于这种需求,目前的电子商务网站显的无计可施。基于这个背景下,根据用户的喜好个性化的推荐明确知道生成厂商的产品就显得尤其重要了。本文主要研究企业产品信息的抽取,将分析后的产品信息个性化的推荐产品给用户。对于产品信息方面,信息的来源是企业的官网。但随着网页设计的不断发展,越来越多的网页制作工具可供设计者使用的。同时,除了网页的布局模版不同之外,网页通常添加许多与网页主题无关的内容。如:导航栏、广告、图片等。不同企业的官网往往采用不同的模版布局,在这种情况下,想要提取产品的信息就显得十分困难。在个性化推荐产品方面,传统的协同过滤方法容易出现用户相似度计算不准确和冷启动问题。基于上述的产品信息抽取和个性化推荐的问题,本文在产品信息的获取上,采用了基于条件随机场和DOM(文档对象模型)树相结合的方法。首先在企业的年度报告中抽取产品名称作为官网上产品的大类,然后根据抽取出来的产品大类去官网上抽取具体的产品信息。其中抽取企业年报产品名称的主要方法有:用同花顺网站中企业介绍部分的产品信息代替公司年度报告中营运情况讨论与分析产品名称;基于条件随机场模型识别年度报告中的公司业务概要模块产品名称;对于官网上的抽取方法本文主要采用了根据企业年报中抽取到的产品名称作为官网的关键词组,确定关键路径然后抽取产品信息。本文在个性化推荐问题上,为了解决用户相似度和冷启动问题,本文采用基于信任和项目偏好的协同过滤算法。主要步骤分为用户间的信任度建立、用户个人可行度计算、用户偏好相似度计算、产品的属性偏好计算。本文主要研究对象是汽车零部件的A股上市企业。数据来源为汽车零部件A股上市公司企业年度报告、汽车零部件A股上市公司企业的官网、同花顺网站。在产品信息抽取上,实现了抽取汽车零部件行业官网上产品的信息、实现产品体系的建立。其中产品大类作为第一级,产品名称作为第二级。解决了以往的电商平台不能提供生产商与产品信息之间的关系的问题。在个性化推荐产品信息上,实现了根据用户的浏览记录计算出用户之间的相似度,实现了对产品进行预测评分,根据评分将预测评分在前4的产品推荐给用户。这种方法不仅解决了传统协同过滤算法中由于用户评分矩阵稀疏而导致的用户相似度计算不准确,而且解决了新项目和新用户的冷启动问题。本文采用的信息提取方法、数据分析方法和个性化推荐方法能够完整的解决用户可以根据自己的喜好个性化的搭配不同企业的产品的问题,这不仅是解决汽车零部件领域的A股上市公司急需解决的问题。更重要的是为其他领域有相似需求的用户提供了可行、有效的个性化推荐产品的完整方案和方法,为后续个性化的推荐具有企业体系结构的产品的工作提供了较为有效的理论基础和实际应用借鉴。