论文部分内容阅读
随着移动互联网的发展,移动应用被广泛地运用于生活的各个方面,使得生活中各方面的数据积累越来越冗余,数据分析技术也被应用于各个专业领域。对此,本文首先调研并总结了当前热议的数据分析技术及其应用情景;然后深入分析移动应用评论数据的知识性挖掘,继而本文提出热点实体发现、评论的实体-话题生成和混合用户情感值计算三种算法,实现一种新的移动应用用户评论数据的分层模型;最后本文总结了移动应用评论文本的研究方向,并提出基于用户评论的移动应用安全检测方法。首先,本文根据当前研究和被媒体广泛报道的数据分析技术进行了全面的调研,并总结出数据分析技术理论概要。其中包括Web数据爬取技术,当前流行的开源数据分析平台,数据分析技术的算法基础,以及数据分析热门的应用场景。本文的总结工作为相关研究学者提供了更为明确的数据分析参考,同时也对将来数据分析技术的发展方向具有指导性作用。其次,本文作者在前人研究的基础上,提出关于移动用户评论数据分析的三种算法。相关的研究文献表明,大多数学者已经提出可以从冗余的移动应用评论中自动提取有效信息的方法,通过这些方法检索出来,像功能需求、错误报告等关键信息,由于评论数据的庞大,其结果大多仍然是混合杂乱的,而用户真正关心应用程序的哪一方面仍是未知的。针对这个问题,本文提出了一个新的模型SAR(Stratify APP Reviews):分层应用评论,为开发人员提供用户对应用程序的真实反应信息。SAR将众多的评论分成不同的层次,根据用户最关注的方面将评论分为不同的组,SAR中还提出了一个用户情感计算方法,用来计算用户对应用程序各个方面设计的满意程度。该模型通过如下三个算法来实现面向用户评论数据的分析:(ⅰ)先从评论数据中提取出所有的实体,确定用户讨论频繁的热点实体;(ⅱ)然后提出一个四层的贝叶斯概率模型,将所有的评论根据热点实体分成不同的层次;(ⅲ)最后计算热实体的用户情绪值。本文对三种应用程序(游戏,社交,和媒体)的用户评论数据进行了实验,结果表明,针对不同类别的应用程序,SAR可以识别出不同的热点实体,据此它可以将相关评论分成不同的层次,每个实体的情感值也可以很好的表示用户的满意度。通过对比人工阅读的结果,在近似的分类精确度下,SAR可以加快整个评论文本的分析过程。本文提出的模型可以帮助开发人员快速了解用户对应用程序最关心的实体,以及他们如何对这些实体做出情感反应。最后,本文分析并研究了移动领域中数据分析技术的应用,深入移动应用评论数据的研究中,从这类数据出发探索移动应用安全检测,并提出了基于用户评论的移动应用安全检测方法。动态检测或静态分析等安全检测技术大多集中于应用程序本身的代码数据,区别于传统的移动应用安全检测技术,本文提出一种新的针对用户评论数据的应用安全检测。通过自然语言处理工具对用户评论进行关键词提取,同时构建移动应用安全特征词典库,通过关键词匹配,检索出包含有安全隐患信息的用户评论。