App用户评论中新兴主题识别研究

来源 :安徽工程大学 | 被引量 : 0次 | 上传用户:wxhxfb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
移动应用程序(Application,以下简称App)产生的用户评论数据能够为App维护和更新提供重要信息。软件开发者通过挖掘App评论中的有效信息可了解用户关注的软件问题,进而维护App以满足用户需求。然而,App评论的短文本特性和噪音数据使得挖掘App评论中的有效信息具有挑战性。主题挖掘被广泛应用于App评论有效信息自动化挖掘中。App评论中的主题指多条评论共同提及的中心内容,开发者通过App评论主题可快速了解用户关注的主要问题,例如影响用户使用体验的软件缺陷或软件功能。已有的多数相关研究通过主题模型和无监督聚类挖掘App评论中的主题,然而App评论主题面临可解释性弱和主题间差异小的问题,导致其并不能直观地为开发者提供有效信息。App评论中的新兴主题指用户在以往时间内关注较少而在特定时间下聚焦关注的App主题,如新出现的软件bug。及时、准确地从App评论中识别新兴主题能够为开发者提供更具有时效性和直观性的信息,进而维护App以满足用户需求,改善用户软件使用体验。本文聚焦识别App评论主题中的新兴主题,具体研究内容如下:(1)App评论的文本长度通常较短且包含大量的噪音数据。已有的新兴主题识别研究没有充分考虑错词、缩略词和短文本稀疏特性对新兴主题识别的影响,进而限制了新兴主题识别的准确性。因此,本文提出了一种面向App评论的新兴主题识别方法,命名为IETI(Improved Emerging Topic Identification)。具体来说,IETI首先通过预训练模型纠正App评论中的错词,并通过一系列自然语言预处理方法减少噪音数据。然后,在挖掘时间序列下App评论的主题分布过程中,IETI通过构建双词以克服短文本稀疏特性。最后IETI通过离群点检测方法识别App评论主题分布中的新兴主题,并通过官方更新日志评估新兴主题的有效性。选取了来自不同平台的多款流行App的评论数据进行实验,相比于最新模型,IETI取得了更高的精准率、召回率和F1分数。(2)用户情感倾向通常会影响App评论的内容,进而影响新兴主题识别的准确性。例如具有消极情绪的App评论更倾向于提出具体的影响用户软件使用体验的问题。因此,本文提出了一种融合情感倾向预测的新兴主题识别方法。在识别新兴主题过程中,通过情感倾向预测模型与IETI联合建模,将用户评论的情感倾向引入到相关评论对新兴主题识别的贡献程度中。实验表明,用户评论的情感倾向有助于识别App评论中的新兴主题。(3)不同种类的App评论在文本内容上有所差别,进而影响新兴主题识别的准确性。因此本文提出了一种融合文本分类的新兴主题识别方法,针对App评论短文本的特性和App评论分类模型易过拟合的问题,提出了一种基于语义拓展的App评论分类方法,命名为TLFS(Transfer Learning and Frame Semantics)。通过对公开的手工标记的App评论数据集进行分类,验证了TLFS的有效性和泛化性。在识别新兴主题过程中,通过TLFS与IETI联合建模,进而识别不同类别标签及不同类别标签组合下的App评论中的新兴主题。实验表明,标签为“Bug报告”和“特性请求”的App评论更有助于识别App评论中的新兴主题。
其他文献
回顾全世界的古村落保护建设运动,中国的古村落保护建设由来已久。古村落保护修建活动是中国农村建设的第一个阶段,最近十年旅游业的迅速发展也带动了古村落游览量的逐年增长。随着村民对生活质量要求的提高,马头村大批古建筑年久失修,现有的自然景观,农业景观,聚落景观,以及基础设施遭到了破坏,不仅影响了村落的整体景观效果,还存在一定的危险系数,所以马头村的景观环境优化设计迫在眉睫。泾县古村落马头村保护与景观优化
学位
近年来,电子商务的发展极大促进了人们购物的热情,众多网购平台积累了海量的在线评论数据。这些评论除了包含大量的短文本信息外,还涉及用户、时间因素、情感信息等多种非文本信息,不仅成为消费者进行选购时的重要参考内容,也成为商家、企业进行决策与分析的重要切入点。从海量的产品评论中分析用户的兴趣及偏好,已经成为企业提升商品和服务质量、制定营销策略,把握流行趋势不可或缺的信息来源。网购平台作为信息传播与共享的
学位
聚类是现代机器学习研究的一种重要的数据分析方法,在数据挖掘、模式识别等领域有着广泛的应用,其目的是通过得到的类或簇来寻找数据集和数据的特点并对数据进行处理。为了弥补原始聚类的方法一些不足,提升聚类方法的性能,很多学者提出了相关的改进方法。在众多改进算法中,基于图正则化的聚类算法由于其优越的聚类性能而获得了广泛的关注,其通过利用数据中隐藏的流形结构信息来提升原始聚类算法的性能。具体而言,基于图正则化
学位
天然生物大分子水凝胶具有良好的生物相容性和可降解性,广泛应用于生物医学和药物载体等领域。壳聚糖(CS)/γ-聚谷氨酸(γ-PGA)水凝胶主要通过分子间非共价交联自组装形成,因具有优异的吸水性、保湿性、良好的吸附性、抗菌和副作用低等优势而备受关注。但两种大分子之间随机交联导致CS/γ-PGA水凝胶网络不均匀且凝胶功能性单一,难以满足实际应用需求。因此,本文提出基于小分子和混合分子介导的多重非共价交联
学位
在养老金的早期发展阶段,几乎所有的养老金计划都是确定福利型计划(DB型计划)。随着经济和社会发展环境的变化,DB型计划自身的不足日渐凸显,无法满足计划参与人对福利的要求。自20世纪80年代以来,世界各国的养老金计划开始由DB模式向确定缴费型计划(DC型计划)模式转变,DC模式逐步占据新建立养老金计划的主流。但是,近年来DC型计划受资本市场的冲击也出现了许多问题,基于此,世界各国对DC型计划进行反思
学位
众所周知,多智能体系统在大数据网络分析、无人机编队控制、区块链技术、社交网络以及智能电网等领域都有着广泛的应用。因此多智能体系统的集群行为研究受到了越来越多的专家学者青睐。特别是在多智能体系统一致性控制研究方面,不同的控制方法被引入多智能体系统的一致性分析中,并获得了丰富的研究成果,如:自适应控制、基于事件触发的控制、时间驱动的控制、采样数据控制以及脉冲控制等。其中脉冲控制是一种典型的非连续型控制
学位
在国际疫情反复和世界布局动荡等背景下,外汇市场备受影响。我国期权市场还处于新兴阶段,各种不完备性因素给套期保值增加压力。自人民币外汇期权被推出后,加快了人民币国际化进程,也给金融相关业务开展带来了风险防控的紧迫感,增加了新兴金融市场下的期权定价和对冲研究的需求。为有效降低对冲误差,提高做市商的风险管理能力,亟需结合我国金融市场的实际特征对期权对冲交易进行深入研究,不断完善并创新适合我国国情的对冲机
学位
杂环化合物是一类非常重要的有机结构单元,本论文基于炔丙醇的成环反应研究,发展了三类高效合成方法学,分别构筑了吲哚亚胺并环戊烯、香豆素并吡喃、吡喃以及吲哚并氧杂环庚烷四类具有潜在生物活性的天然产物与药物骨架。论文主要包括以下四个章节的内容:第一章:介绍了炔丙醇的主要反应类型:亲核取代反应,重排反应以及串联环化反应等;重点介绍了炔丙醇参与的环加成反应的研究进展,包括炔丙醇的自身环化、[2+3]、[2+
学位
细菌感染是一种常见的临床疾病,已经严重威胁到了人们的生命健康,成为亟待解决的医疗卫生问题。细菌感染性疾病主要通过抗生素的应用来控制,但在治疗中出现了抗生素耐药性的新问题。细菌耐药性出现会导致住院时间更长,医疗费用更高,死亡率也会增加。因此,开发新的抗生素治疗感染性疾病,克服细菌耐药性问题至关重要。大麻二酚(CBD)是大麻属植物中主要的非致幻植物大麻素之一。CBD的生物活性,如抗炎和神经保护作用,已
学位
素馨花(Jasminum grandiflorum L.),长期作为一种药食两用的植物,经常被用来治疗皮肤疾病、伤口感染、精神疾病,也常用来泡茶饮用。探究素馨花及其成分的药用和保健功能对素馨花茶的应用及开发具有重要意义。本研究对素馨花茶进行感官评价,通过动物和细胞模型,研究素馨花提取物和主要化学成分对缓解急性胃黏膜损伤、急性肝损伤和降脂减肥的作用及机制。通过感官评定,发现素馨花茶外形较有特色,茶汤
学位