基于深度学习从高保真UI设计图像到界面树的生成研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:guizhicheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着通信技术的高速发展和移动终端设备的大量普及,人们越来越依赖移动设备进行工作和生活,移动应用程序也就变得越发重要。对于移动应用程序(Application,App)开发方来说,要想让App在充斥着大量同类产品的应用市场中脱颖而出,就必须使其具备丰富的图形用户界面(Graphical User Interface,GUI)和令人愉悦的用户体验(User Experience,UX)。那么如何设计和开发好的GUI对于移动应用程序来说就是至关重要的问题。通常来讲,开发应用程序GUI的过程涉及两个阶段:设计UI和实现UI。在UI设计方面,通常会由拥有特定领域知识的设计师采用图像编辑软件(例如Sketch和Photoshop)完成。在完成UI设计之后,再由开发人员将其转换为代码实现,经过多轮测试改进后最终发布到应用市场供用户下载使用。高保真UI设计图像主要以像素的形式对所需的界面元素及其空间布局进行描述,在将其(界面整体或者部分界面)转换为代码的形式时,由于需要进行组件细化、布局构建等工作,需要一定的试错成本,如果能够直接从高保真UI设计图像生成界面树,来表示在GUI实现中需要使用的控件(分为容器和组件)元素以及组成方式,可以极大的简化此过程,从而提升开发效率。理想的界面树应该以实际开发中需要使用的真实控件类名作为节点,控件之间的嵌套关系作为父子关系,可以作为详细代码的骨架来加速GUI实现。然而目前学术界鲜有能够直接生成界面树的研究,大多是先进行界面组件(界面树的叶子节点)检测然后再确定组件所属容器,直至最终生成界面树(如REMAUI和REDRAW)。这类做法由于普遍存在的组件漏检和多检问题以及难以确定组件所属容器,很难保证界面树的生成效果;还有一些研究利用DSL(Domain Specific Language)作为粗粒度的界面抽象(如pix2code),先从高保真界面图像生成DSL,再转换成界面树。这类做法得定义和维护DSL,并且需要两次转换才能得到界面树,导致生成效果不理想。而UI2code与本研究较为相似,都是直接生成界面树,但是该研究存在特征信息长距离依赖和空间位置信息丢失等问题,影响了界面树的生成效果。针对以上问题,本文提出了一种基于改进的Transformer的神经网络翻译器来自动学习高保真设计图像到界面树转换的知识,能够自动将高保真的UI设计图像转换成由真实界面节点构成的界面树,以辅助开发人员进行界面理解,降低开发的难度和成本。本文生成的界面树可以视作最初的“引导指令”,能够用于后续的GUI具体实现(例如,填充颜色,引用图片,输入文字等)并采用完全匹配率、BLEU和编辑距离进行生成效果评估,完全匹配率用于衡量生成的界面树与真实界面结构完全一致的比例,BLEU和编辑距离主要用于衡量没有完全匹配的界面树与真实界面结构的近似程度。本文主要工作如下:(1)现有移动应用程序数据集质量不高、信息不完全或信息驳杂,难以直接应用到本研究之中,因此,本文首先制定了筛选规则,从现有数据集之中筛选出了一部分可用数据,此外,利用爬虫从谷歌商店按应用程序类别收集移动应用程序的APK文件,然后使用自动测试工具在模拟器上运行APK文件,自动获取移动应用程序的界面截图和运行时数据,最后进行数据处理构造出界面树图像数据集。(2)现有研究在将图像特征编码成上下文向量以解码生成预测文本时存在长距离依赖和空间位置信息丢失等问题,对此,本文使用Transformer和CNN进行界面树的生成,利用Transformer的自注意力(Self-Attention)来解决特征编码的长依赖问题,同时利用空间位置编码来改善空间位置信息丢失的情况,并使用完全匹配率、BLEU和编辑距离对生成效果进行评估,结果显示,本文生成的GUI界面树与真实界面结构的完全匹配率达到71.16%,相较已有研究提升了8.3%,BLEU得分达到93.36%,相较已有研究提升了5.05%,平均莱文斯坦编辑距离为2.9,平均树编辑距离为2.14。(3)由于界面树具有强层次结构关系,而Self-Attention将输入的所有特征信息都视作同级元素,导致其较难学习到控件之间的层次关系,因此,为了进一步提升界面树的生成效果,本研究提出了先验记忆自注意力,在编码器的每一层加入了持续存储的记忆力模块来学习特征的先验知识,同时利用其进行注意力计算得到该层的先验信息并将其向后续所有高层传递,使其参与高层的注意力计算,加强了模型对图像特征的理解能力。本文利用改进后的模型进行GUI界面树生成,结果显示,在各项指标上均有明显提升,其中,完全匹配率达到72.22%,BLEU得分达到93.8%,平均莱文斯坦编辑距离为2.75,平均树编辑距离为2。
其他文献
随着空中作战在现代战争中占据越来越重要的地位,空战决策方法的研究所具备的现实意义也显得尤为突出。由于空中作战态势复杂多变,如何快速感知战场环境并生成一种有利且准确有效的空战策略成为了空战博弈的重要研究方向。在空战决策方法的研究进程中,有诸如专家系统、影响图、矩阵博弈和微分对策等方法的研究进展,但此类传统方法存在适应性较差、计算复杂、难以满足实时性等问题。随着近年来深度强化学习技术的兴起与发展,其在
近年来,恶意代码分析一直都是中国网络安全领域研究的重要课题之一。其中高级可持续威胁攻击(Advanced Persistent Threat,APT)是一种特定的恶意代码入侵方式,它通过扫描探测系统漏洞,对靶机投放恶意漏洞利用脚本,再植入二进制恶意程序,达到感染主机的目的。研究恶意代码功能分类模型能进一步分析出恶意代码的功能行为信息,从而有效地提升APT防御技术,保护网络安全。但近年来分类恶意代码
随着美国成功勘探及开发出页岩气,世界各国都兴起了一股研究页岩气的热潮。我国地质资源丰富,但地形条件复杂,不同地域的构造演化、沉积环境以及热演化过程都不相同,使得页岩气的形成过程和富集程度存在较大差异,所以勘探技术仍是页岩气开发过程中的关键因素。通过使用图像分割技术对深层页岩SEM图像进行分割处理,进而为勘探人员提供辅佐信息,有助于提高勘探效率。为了提升分割精度,本文对深层页岩SEM图像分割进行了深
近年来,随着计算机性能的提升和深度学习的迅速发展,计算机视觉领域迎来了蓬勃发展。头部姿态估计作为基于生物特征的计算机视觉领域的一个分支,是众多学者的一个研究方向。头部姿态估计是指从二维人像图中推断出人在三维空间中的头部朝向的过程。这个课题在很多领域都具有广泛的应用场景,例如驾驶员监测系统、虚拟现实、安防监控系统、学生课堂注意力估计等等。目前,头部姿态估计仍然面临着诸多挑战,例如精度较低、模型泛化能
白内障是致使视力受到损害的主要原因,也是导致失明的严重眼科疾病之一,且白内障疾病发病率较高。但在偏远地区,基层医疗机构的专业眼科人才极度缺乏,无法诊断各类眼科疾病。运用人工智能的方式辅助医生检测白内障,搭建远程白内障超声影像诊断系统,能够有效缓解因诊断不及时,就医困难等原因引发的严重后果。近年来,基于深度学习(Deep Learning,DL)方法的自动化系统显著提高了白内障的检测。然而,白内障自
近年来,随着互联网和移动终端的迅速发展,各大互联网公司为抢占有限的用户资源,推销自己产品和服务,纷纷采用各种推荐算法进行信息或物品推荐。序列推荐算法作为推荐算法领域的子领域,在电商购物平台应用尤其广泛。序列推荐算法的主要任务是通过用户与平台的交互序列,得到当前序列偏好,进而预测用户下一次可能交互的物品,提供给用户合适的推荐列表。当前,研究人员开始将门控图神经网络应用于序列推荐当中,但是现有研究工作
BP神经网络(BPNN)被广泛称为现阶段最受欢迎的神经网络之一,它是一种监督式学习的网络[1]。BPNN通过学习训练样本输入和输出的关系进行建模,它对网络权重进行连续调整,以达到减小预测值和真实值差异的作用。它只需要较少的计算和训练,就能隐式检测因变量和自变量间的关联[2],从而计算变量间的复杂关系,对不可见数据进行良好的泛化和预测。但随着大规模数据集在各行业的出现,BPNN逐渐暴露出缺陷与不足,
意图识别任务本质上属于自然语言处理中的文本分类任务。意图识别任务按场景可分为口语意图识别和文本意图识别。口语意图识别使用语音识别输出的文本作为输入,因此口语意图识别的准确率会受到语音识别准确率的影响。通常,语音识别的准确率会受到环境噪声的影响,一般采用语音增强和语音降噪可以解决大部分问题。然而说话人口语表述方式的多样性以及每个人发音的独特性使得语音识别系统的识别内容距离用户的真实表述内容还存在一定
随着神经网络算法的不断发展和突破,神经网络算法越来越广泛的被应用在图像识别,自动驾驶,语音识别等诸多领域。卷积神经网络是从人工神经网络中派生出来的一种神经网络,它非常适合于图像的平移,比例的缩放等形式的图像变化操作。一方面,在卷积神经网络前向推理计算过程中,存在着复杂计算和高带宽访存的问题,使用通用处理器平台实现深层卷积神经网络前向推理计算过程的方法,无法保证提供足够的计算能力。另一方面,尽管使用
随着计算机图形学技术的蓬勃发展,越来越多的虚拟现实产品被运用到军事、航空、航天和娱乐领域,为这些领域的生活生产带来极大的便利。而基于沉浸式投影系统的虚拟现实技术由于其成本低、沉浸感强、空间显示范围广和适用性强等优势,得到了越来越广泛的研究和运用。这类虚拟现实系统一般由投影仪和投影屏幕构成,为了提升虚拟现实场景的沉浸性和真实性,常常采用曲面形式的投影屏幕。目前,基于沉浸式投影系统的虚拟现实技术有着广