基于半监督学习的商品评论分析系统设计与实现

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:hongjiansu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络购物已经成为主流,但是带来足不出户便利的同时也带来了很多问题,比如如何买到物有所值的商品、如何买到高评价的商品。通常用户使用商品的评分系统来判断商品的优劣,但是由于“网络水军”行业的兴起,用户很难从中发现有用的信息,无法准确的对商品优劣进行判断,同时由于每个人对于商品的评分标准不尽相同,这就容易造成较大的误差,进而影响用户的判断。所以可以根据商品评论进行分析,优化用户的购买决策。同时对于卖家而言,可以通过商品评论分析,优化卖家的卖出策略。但是对于某个评论数非常多的商品,人工分析费时费力。目前,通常使用监督学习来进行文本情感分析,但是监督学习需要大量标记的数据。在各大互联网企业的评论情感分析应用中,人工标记成本过高,所以需要结合相对成本较低的未标记数据进行情感分析。因此,本文针对商品评论情感分析,使用大量无标签和少量带标签的数据集,训练出最优模型并应用到商品评论分析系统中。本文的主要研究内容包括如下:1.本次研究采用的是RPA技术进行数据的获取,相比传统数据爬取方式更加简单、安全、高效,本次实验数据均来源于淘宝商城,使得作为研究的数据更加真实。目前商品评论中存在大量的口语和网络用语,结巴分词不能很好的进行识别。本文在淘宝商城评论数据基础上,使用新词发现算法进行新词发现,同时与搜狗细胞词库中的阿里巴巴产品词汇-服饰鞋帽词汇表一起加入结巴自定义词库中,最后使用自定义词库进行分词,使分词结果更加准确。2.商品评论分析系统的核心是算法模块,本文通过对半监督学习方法的学习研究,选择了半监督学习中的自训练方法,并实现了多种不同的基分类器自训练算法,同时使用多样性与高置性度估计方法对未标记样本数据预测后的伪标记数据进行进一步的过滤,实验结果显示多样性与高置性度估计方法提升了模型的准确率,将传统增量自训练算法同多样性与高置性度估计自训练算法进行综合比较,最终选择多样性与高置性度估计自训练算法作为商品评论分析系统的算法。3.本文构建了一个完整的商品评论分析系统,该系统可以分为两个模块,管理员功能模块和用户功能模块。管理功能模块主要功能是对用户信息和机器学习模型信息进行管理,用户功能模块主要功能有注册、登录、商品评论分析,其中商品评论分析需要提交一份评论数据,系统会返回分析的结果供用户做参考,以优化用户的买卖决策。
其他文献
<正>0引言我国经济发展已进入新时期,科技创新对区域经济发展的支撑作用越来越重要,自主创新能力的提升能够为地区培育新的经济增长点,助力区域经济的高质量发展。“十三五”时期,广东省紧抓粤港澳大湾区国际科技创新中心建设的历史机遇,全省研发经费支出从2015年的1800亿元增加到2020年的约3200亿元,在多项财政支持政策的作用下,全省技术创新能力有了显著提升,尤其是珠三角地区的科技型中小企业发展势头
期刊
历经次贷危机的洗礼后,影子银行在美国的土地上逐渐发展壮大,甚至蔓延全球,国内外许多研究人员也对其表现出兴趣。影子银行的出现使得实体经济的融资渠道更加多元化,也正是因为社会融资需求旺盛,催生并促进了影子银行的进一步发展。影子银行丰富了金融产品,可供人们选择的投资或者借贷种类更多,但是其在带来金融便利的同时,也存在巨大风险。影子银行风险容易产生过度累积,进而威胁到整个金融系统的安全稳定。如何对其进行有
学位
互联网的普及与发展,改变了现实生活中人们的行为习惯,模糊了距离的界限。虚拟世界和现实世界互相渗透,现实社会中相关活动得以记录、存储和传播。各式各样的社交化媒体不断涌现,一方面为人们提供了可随时随地共享信息,情感表达,思想观点碰撞的平台;另一方面也搭建起社会行为关系与网络行为关系的桥梁,使得不同背景下的机构、组织或个体的信息能够迅速地被关注、扩散与发展,严重时甚至引发突发网络舆情。突发性网络舆情不仅
学位
随着数字化时代的高速发展,互联网已经深度融入到人们的日常工作、学习和生活中。在互联网取得快速发展的同时,由于网络用户安全意识的缺乏和网络攻击技术的复杂化、智能化发展,网络受到的安全威胁越来越严重,网络安全问题引发了社会各界的广泛关注。各种网络应用系统从日常的民用、商用到国家层面的军用都面临复杂的网络攻击和安全威胁,异常流量检测作为攻击防御的有效手段,对检测各种网络异常情况发挥着不可替代的作用。随着
学位
随着经济社会的快速发展,当今世界成为了以智能化和网络化为核心竞争力的社会,人均收入大幅度提高,消费者倾向于利用贷款来进行各种消费的预支,在这样的时代背景下,具有快速放款,借贷方便的信贷平台应运而生。其中金融公司提供的核心小额度贷款具有基本流程简洁,贷款下放速度快的特点,是本文的主要研究对象。信贷风险评估业务是金融公司的核心业务之一,已有的金融公司信贷风险评估技术主要依赖于内部管理方法以及经验常识,
学位
近年来,行人检测技术在很多现实场景里得到了应用,帮助城市生活更加智能和便捷,伴随着智慧城市的不断发展,未来很多人机交互场景都将使用到行人检测技术,行人检测拥有十分可观的应用前景,因此对行人检测的研究也十分重要。如今出现很多优秀的行人检测算法,但在公共场所进行行人检测时往往伴随着行人密度较高,光照条件不够良好等环境因素的影响,这对行人检测的准确性提出了更高的要求,需要针对问题提出解决方案对行人检测算
学位
玉米籽粒淀粉含量直接影响着玉米作物产量,提高淀粉含量是目前培育优良玉米品种的重要手段之一。腺苷二磷酸葡萄糖焦磷酸化酶(AGPase)催化腺苷三磷酸(ATP)和1-磷酸葡萄糖(G-1-P)生成腺苷二磷酸葡萄糖(ADPG)和焦磷酸(PPi),是玉米淀粉生物合成中的关键限速步骤,AGPase在玉米体内是由两个小亚基Bt2和两个大亚基Sh2组成的异源四聚体。研究表明,AGPase活性除了受到氧化还原调控、
学位
为了更加高效、准确地进行马铃薯品种真实性鉴定,本研究利用非变性聚丙烯酰胺凝胶电泳技术和荧光毛细管电泳技术筛选得到20对多态性高、扩增稳定的SSR引物,确定各引物的特征峰识别及参照品种;对收集保存的231份材料进行了系统的遗传多样性和群体结构研究,并对供试材料构建特有的指纹图谱;此外,采用筛选的引物组合对20份资源材料进行真实性鉴定,并对非变性聚丙烯酰胺凝胶电泳和荧光毛细管电泳的检测结果进行比较分析
学位
互联网经济的发展离不开推荐系统的支撑,随着我国大数据的产业链越来越完善,推荐系统也开始为用户创造出更多的应用价值,围绕着用户数据开辟出的巨大市场,推荐系统在金融、教育、娱乐等诸多行业领域有着举足轻重的影响。推荐系统的应用使得电影网站能为用户提供更加便捷智能的交互方式,能提高网站用户的活跃度。为了进一步完善传统推荐算法的不足,也为了能让商家更加快捷地为目标用户推送商品广告,本文设计并实现一个电影智能
学位
随着视频监控系统在人们日常生活各场景的全面性部署,通过计算机视觉技术分析视频监控数据的智能监控系统越来越广泛地应用于交通违章、人员聚集区域防控等方面,为基层安全监管执法提质增效,节约人力成本。目标跟踪是智能视频监控系统的一个重要环节,它将连续的视频帧中同一目标对象关联起来,获取目标在监控视频中的运动轨迹,为目标运动的分析提供基础依据。视频监控数据为实时视频流,对目标跟踪算法处理速率有较高要求,通过
学位