论文部分内容阅读
随着电子商务平台的普及,虽然网络环境的丰富信息为消费者在购买时提供了便利,但同时也增加了消费者的认知负载。不同客户选择合适的产品仅仅基于他/她自己的经验,产品图片和产品的基本信息。越来越多的人倾向于在网络上自由表达观点,大量的用户生成内容能够帮助用户更全面地了解产品,做出理性的决策,但阅读搜索结果所有产品的所有可用的评论是一个又费时又艰巨的任务。通常情况下,客户阅读产品评论有两个原因,要么是想找一种产品它的功能或相关服务有最好的评语;或为了寻找一个与特定的产品特性有评语的评论,例如一个关于手机电池寿命的评论。因此,本研究的主要目的是通过建立基于用户评价的产品搜索引擎而自动化普通评论搜索。在本论文中,我们提出了一种面向中文的用户评论产品搜索排序机制。在本论文中,我们设计成功了一个以产品特性为基础的排序系统,名字叫“t Search”。t Search系统通过挖掘客户的评论能够为用户推荐最有价值的产品。但为了提高系统的搜索功能,系统在搜索过程中将考虑用户所感兴趣的产品特征,并立足于之前的消费者对产品的意见的搜索结果,而不仅通过产品的销售者提供的产品基本信息。此外,该系统为每个产品还提供了一个视觉观点总结,以帮助客户获得有关整体意见的总体思路,并确定显示获得了最多关注的特定产品。系统设计时,所采用的数据都从中国领先的电子商务网站taobao.com爬取的。该数据集包含从5个不同领域(手机,数码相机,电饭煲,豆浆机和笔记本电脑)作为产品类。每一个产品类包含了前三名热门品牌的产品,而每个产品仅属于一个产品类。爬取的信息包括16071产品页,一共有537638评论。每一个产品页所爬取的信息包括:产品标题,产品ID,产品基本参数和产品的所有评论,然后为了快速获取搜索结果建立了基于产品标题的搜索索引。系统不仅能够接受中文关键词,而且英文写的关键词同时也可以处理的。系统支持逗号分隔的字符串,其中的第一部分视为搜索关键词,而其余部分视为产品功能或特性用户对此感兴趣。搜索结果的排序都是根据每个产品计算出的基于产品评论的评分。关于产品特征提取,我们使用了斯坦福句子语法类型依存表示。斯坦福句子语法类型的主要特点是提供一个简单的在一个句子中的语法关系表示,可以很容易被理解并有效地被没有自然语言处理技术的研究员利用与应用。虽然中文的句子语法类型的设计类似于英文句子语法类型,但大多数语法结构只存在于中文。在本论文中,我们考虑了五种类型依存来提取产品特征,它们是:nsubj,dobj,ccomp,nn与attr。提取的产品特征分为两类:从属特征与独立特征。从属特征是描述产品本身或其组成部分。独立特征是功能描述相关服务。在该方法中,每个类别给分配了不同的权重并假定客户会为从属特征更为关注。此外,为了方便使用和管理我们提出的系统,前台和后台网站也被建立了。前台的主页用来接收用户输入的搜索关键词。点击“搜索”按钮后,搜索关键词将被提交给系统后台,最后系统将生成与查询关键词匹配的产品列表并根据评价评分而排序。本系统不仅提供按关键词搜索,而且还提供按照产品的特定功能或特性搜索。系统的评估过程通过了两个层次:第一个是测量产品特征提取和分类的准确性,而第二个是确定搜索结果的效率和视觉总结的可用性。实验显示在特征看来对提取高水平的精度,并与排名和汇总高水平的参与者满意。本论文的主要贡献可以归纳在以下四个方面:第一:为产品搜索引擎提出了基于用户生产内容的排序方法,提取的产品特征第一:为产品搜索引擎提出了基于用户生产内容的排序方法,提取的产品特征分为两类:从属特征与独立特征第二:从挖掘角度,提出的系统在切面级别剖析,但我们所知的其他方法都在文档或句子级别进行剖析的。第三:提供可视化产品特征总结。用户可从中清晰地看到产品的优势。第四:所提出的系统能够实时处理和分类产品评价,并能够捕获新添加的产品特征同时确定它们的极性。