论文部分内容阅读
随着工业自动化、智能化的发展,智能机器人在制造业领域中应用愈发广泛,《中国制造2025》明确将智能机器人技术列入重点推动突破的科技领域。机器人、人类、环境三者的共融交互是机器人智能化的标志,而图形界面、力反馈等传统交互方式无法满足智能化的要求。因此,研究更加智能的人机交互技术是实现机器人智能化的重要途径,这能够有效提高人机协作的效率,加速制造业智能化的进程。众多交互方式中,人类语言(自然语言)是人机交互最自然的接口。机器人理解人类的自然语言表述可大大提高机器人智能化的程度,使得机器人和人类之间能像人与人一样进行交互。想要可靠地做到这一点,人类和机器人之间必须对环境有共同的理解,这正是自然语言对象检索任务的体现:基于自然语言表述在全局场景图像中定位目标对象。本文将自然语言对象检索应用于人机交互技术,使得机器人可以根据作业人员对场景图像中特定对象的描述定位目标对象,并自主完成目标对象的抓取和放置任务。相比于肢体手势、图形界面等交互方式,基于自然语言对象检索的人机交互方式更加智能化,可有效提高作业人员与机器人协作的效率。本文主要工作内容如下:(1)搭建了基于Kinect摄像机和EPSON机器人的机器人视觉定位系统,并采用Tsai两步法对视觉定位系统进行了手眼标定。根据摄像机成像原理,分析了场景图像中目标对象空间位置坐标的测量方法。结合EPSON机器人的D-H参数,完成了机器人正逆运动学解算,并根据解算结果采用C#编程语言实现了机器人运动控制算法。(2)构建了基于Faster-RCNN架构的候选区域提取算法模型,该算法用于提取场景图像中所有的候选区域,并构建自然语言对象检索算法所需的候选区域集。采集并标注了机器人抓取数据集,并在该数据集上完成了候选区域提取模型的训练和性能评估。(3)结合目标检测技术和自然语言处理技术,搭建了基于残差网络(ResNet)和长短时记忆网络(LSTM)的自然语言对象检索算法——空间上下文记忆残差网络(SCLR)模型,该模型主要包括特征提取、词向量编码、LSTM模块和表述预测层四个模块。在机器人抓取数据集上,采用迁移学习方法训练了SCLR模型,并在测试集以及实际实验场景中评估了SCLR模型的检测精度。(4)搭建了人机交互实验平台,以客户端-服务器模式实现了人机交互平台的软件设计。在Linux服务器中完成了SCLR模型搭建、训练、评估以及对象检索进程的程序设计,在Windows客户端中完成了候选区域提取进程和机器人控制系统进程的程序设计,并采用TCP/IP通讯实现了进程和线程之间的通讯。基于人机交互实验平台,开展了基于语音的人机交互实验,验证了基于自然语言对象检索的人机交互技术的智能性和高效性。