基于词向量的在线评论话题及其特征抽取研究

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:okyy1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
IT技术和互联网对人类社会的信息交互带来了巨大的革新,同时也促使了新的交易方式——电子商务的出现,随着电子商务的发展成熟,人们越来越热衷于通过网络购买商品和服务,在研究领域,众多的学者对消费者行为的研究也从线下迁移到了线上。电子商务话题的研究是近几年的热门领域。Web2.0带来的交互便利、快捷使得用户能轻易的在网上留下自己的行为轨迹、发表自己的观点和意见,网络购物人群的快速增长使得电子商务网站积累了大量的购物数据,其中包括大量的非结构化的评论文本信息。对于消费者而言,这些评论信息有助于其做出更有效的购物决策,而对于商品的生产厂商而言,这些评论反映了消费者对其产品和公司服务的市场反馈,相较于普通问卷、咨询等调研方式,在线商品评论数据更为庞大和直接。用户在电子商务网站上留下的在线评论是消费者自发、随意撰写的,这些评论往往结构散乱、内容简短,这种文本的稀疏特性使得学者们在研究评论时面临很大的困难;另一方面,电子商务网站上的商品成千上万,各自的评论更是从体量上超过了人类能够阅读、判断的极限;即大数据、稀疏性带来的问题使得研究难以进行。对于在线商品评论的研究,以前的学者多从文档层面对评论文本进行研究,考虑句子结构,语法特点、词频等特征,或者从概率模型的角度,研究潜语义层面的话题特征,这些研究虽然取得了一定的结果,不过在处理文本的过程中,忽视了作为一个整体句子的语义信息。随着当今计算能力的提高,神经网络语言模型在语义层面解释了文本的产生和语义的表达。本文利用神经网络将在线评论文本从传统的文档空间转移到高维的向量语义空间,并对挖掘的评论特征种子词进行聚类,对于在线评论的话题和特征抽取达到了更好的效果。另外,对于大量数据的真实背景缺失问题,本文通过改进的困惑度指标,基于最大熵的原理,证明了本文所提方法的可靠性。同时,本文所改进的困惑度指标也可扩展为对大数据环境下聚类问题的统一评价指标,对大数据下的研究有一定贡献。为真实背景缺失的算法比较,提供了一个较好的评价方式。
其他文献
数据采集是汽车质量跟踪的核心工作,无线射频识别(RFID, Radio Frequency Identification)技术运用到汽车行业,使得数据采集变得更简单、高效。但由于汽车生产、质量数据属于
伟大的科学家爱因斯坦说过:“人的差异在于业余时间”。时间是公正的,对每个人也是公平的,每人每天都同样拥有24小时。在8小时工作时间内,大家一起工作、一起学习、一起努力
在过去的十多年中,通信网络的流量有了巨大的增长。网络资源分配研究面临新的挑战,主要体现在资源相对稀缺、服务多样化、资源分布化和应用商业化等四个方面。网络业务的多元化和用户群体的多元化需要ISP能够有效公平地分配网络资源。网络资源对于用户来说永远是稀缺的,而用户对网络资源的需求是无止境的,单靠增加网络设备来解决资源配置的问题不是十分合理的。传统的网络资源分配方法侧重于研究报文的调度、提供服务质量保证
攀西战略资源创新开发试验区的建立,为攀枝花市实施创新驱动战略提供了平台。强调知识创新是提高城市经济发展水平和创新能力的支撑战略,必须摆在发展全局的核心位置。本文基于
我省地方农家品种,是在当地经过长期自然选择和人工选择的产物,具有丰富多样的优良性状和广泛的适应性,是一个遗传基因丰富的群体。 Local farmers in our province variet
为了探索茶树对微肥的需求,1985在临沭县芦庄乡陈宅村茶园进行了试验,结果证明,喷施稀土微肥较对照茶园增产16.5—21.0%,其增产效果显著。一试材与方法供试茶树为十年生安徽
大规模定制是21世纪制造企业参与市场竞争的一种重要手段。大规模定制是以客户需求为导向的,客户需求是实现产品定制的直接动力,也是产品配置依据的源头。因此在面向大规模定制过程中,要求企业能够对不同的客户需求做出快速的响应。产品定制过程是以客户需求为输入,通过对各种类型的客户需求进行获取、识别,在准确理解真实需求的基础上最终完成产品配置而实现的。因此,客户需求信息的识别和处理是成功实施大规模定制的前提和
一、前言小麦灌浆持续期是指从小麦开花到熟成这段时间。籽粒产量的90%以上都是这个时期的光合产物,此段的光合强度和有机物运转速度决定了粒重。在湖北,近年产量的变化主要
一、高山名茶过去历代只是为少数王公贵族与文人雅士作为贡茶而生产,以致数千年来高山名茶无法成为大众化的商品为市场的需要服务。高山茶晶质肯定比平地、丘陵茶好。但生长
自开年以来,北京楼市开启了“高温”模式,“火爆”已经不足以形容北京楼市了。根据数据统计显示,北京4月份预计有40个项目开盘入市。其中,北京各区县预计28个项目入市;北京周