面向全景图像的多行人视线方向识别方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:LZLZ
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网技术的发展和全景成像技术的成熟,全景相机在商场和会展中心迅速普及,涌现出越来越多依托全景图像的视觉应用需求,例如物联网设备可以通过分析视线信息来理解人的行为和意图。目前视线方向识别的研究主要是基于眼球或人脸特征的视线估计方法,面对的大多是受控场景下的视线估计。当面对全景相机所应用的复杂非受控环境时,传统方法视线方向识别精度低,因此本文将研究面向全景图像的多行人视线方向识别,先对多行人目标进行定位,再对目标行人的视线方向进行预测。360°全景相机拍摄出来的图像经过圆柱形投影展开后,由于使用了插值算法,使得全景图像展开图从赤道到两极附近存在不同程度的畸变,特征提取主干网络对全景图像的特征表达能力下降。且由于近大远小的成像原理导致了全景图像上的目标存在较大的尺寸差异,使得常规的检测算法在全景图像上多行人检测的精度低。针对此问题,本文提出了可形变卷积金字塔结构,可以根据采样位置的不同自适应地扩张或收缩感受野,提供畸变目标在多个尺度上的特征,增强特征提取主干网络对全景图像上畸变目标的语义表达。在可形变卷积金字塔结构的基础上,提出基于可形变卷积金字塔的人脸检测方法,有效提升了在全景图像上的多行人检测精度。在非受控的全景图像上,行人多且相互聚集,行人姿态各异,获取不到人眼特征,部分小尺寸人像目标的人脸模糊不清,还存在背脸的情况,传统的基于眼球或人脸的视线方向识别方法在这样复杂场景下的视线方向识别精度低。针对此问题,本文提出了基于视线方向场和高斯热图域融合的视线方向识别,先通过人脸特征预测多估计值的视线方向场,再根据人身区域特征预测出的高斯热图域对视线方向场做进一步调整,给出最终的视线方向预测结果,从而有效提升了在全景图像上的多行人视线方向识别精度。目前缺乏开源的全景图像数据集,因此本文还采集并标注了一个全景图像数据集用于评测多行人的视线方向识别方法在全景图像上的表现。
其他文献
近年来,人工智能发展迅速,应用领域越来越广泛。在人工智能的众多应用领域中,金融领域是人们关注的焦点之一,因此人工智能与金融相结合衍生的交叉学科-智慧金融得以迅速发展。智慧金融研究方向众多,其中如何通过人工智能技术给予投资者个性化的金融服务凭借其广阔的应用前景脱颖而出成为大家研究的热点。如今的市场上个性化金融服务种类繁多,其中如何选择股票是投资者尤其是新手投资者在投资时最为关心的一项。基于以上背景,
学位
研究目的:颅内动脉瘤好发于血管分叉处,提示颅内动脉瘤的发生与血管形态密切相关。本研究通过探讨大脑中动脉(Middle Cerebral Artery,MCA)分叉处形态学相关参数与动脉瘤发生的关系,从而寻找分叉处动脉瘤发生的高危因素,为后期对高风险患者进行动脉瘤筛查及预测提供理论依据。研究方法:本研究回顾性分析了我院2018年1月至2020年12月期间的60例大脑中动脉分叉动脉瘤患者,并选择60例
学位
目的:评估肝细胞肝癌(HCC)微血管侵犯(MVI)的临床指标及CT影像征象,并建立预测发生MVI风险的列线图模型。方法:回顾性分析160例经术后病理证实为HCC患者的CT影像特征及临床资料,并与病理结果进行对照分析,筛选出MVI相关的预测因素,应用列线图构建评分模型,并评估模型的预测能力。结果:筛选出肿瘤直径、肿瘤形态及低密度环征3个危险因素,并应用列线图构建评分模型。列线图模型的C-index=
学位
目的:应用左室压力—应变环(LV–PSL)评估左室射血分数(LVEF)减低的急性ST段抬高型心肌梗死(STEMI)患者心肌做功变化,并探讨早期心肌做功参数在预测左室收缩功能变化中的临床价值,以期为临床诊疗、预后评估提供新的依据。方法:选取2020年3月—2020年12月在我院因初发急性STEMI行PCI治疗后左室射血分数(LVEF)减低的患者62例。记录所有患者住院期间的基本临床资料,包括:人口学
学位
目的旨在建立预测甲状腺微小乳头状癌(PTMC)侵袭性的超声联合基因风险预测模型,为主动监测PTMC提供理论依据。方法选取2017年10月至2021年1月264例行手术治疗并经术后病理诊断为PTMC的患者。将2017年10月至2019年4月收集的154例纳入模型组,2019年5月至2021年1月收集的110例纳入验证组。分析模型组154例经术后病理证实为PTMC患者的临床资料、超声特征及BRAF V
学位
研究目的研究人组织激肽释放酶结合蛋白(Kallistatin)及高迁移率组框蛋白1(High mobility group-1,HMGB-1)在间质性肺疾病(Interstitial lung disease,ILD)之中的诊断价值及临床意义。研究方法选取2021年4月-2021年7月在安徽医科大学第二附属医院就诊经高分辨率CT(High-resolution computerised tomog
学位
目的1.探讨不同B7-H3表达水平肺腺癌患者对EGFR-TKI靶向治疗应答率的影响2.探讨共信号分子B7-H3与肺腺癌(EGFR-TKI)靶向治疗继发性耐药的相关性方法1.采用免疫组化方法检测56例肺腺癌组织B7-H3表达,将其分为低表达和高表达两个水平,并分析了B7-H3高/低表达与一线抗EGFR治疗的临床结局之间的关系。分析的主要标准为总缓解率(ORR)、疾病控制率(DCR)和无进展生存期(P
学位
如今,人工智能正在深刻影响和改变着我们的世界,智能人机交互的发展及应用极大程度上提高了我们的生活质量。语音合成技术能赋予机器像人一样自如说话的能力,是智能人机交互中非常重要的一环。近十年,基于神经网络的语音合成系统可以更快速地合成高质量音频,逐渐成为了主流。在汉语作为母语的同时,英语也逐渐成为我们的第二语言,中英文混读现象日益常见,中英文跨语言语音合成需求越发迫切。然而,主流的语音合成模型往往仅支
学位
近些年来,数据隐私泄露事件频发,隐私泄露造成的危害越来越大,数据隐私保护变得尤为重要。联邦学习可以在保护数据隐私的同时,挖掘数据价值。然而,标签噪声数据严重影响联邦学习模型效果,阻碍联邦学习的应用。目前联邦学习场景下的标签噪声调试研究主要是通过选择数据质量高的联邦节点或者标签正确的样本数据,来减少标签噪声对联邦模型的影响。但是,上述方法难以兼顾过滤数据集的纯度和丰度。节点选择方法没有真正识别噪声数
学位
会话推荐算法根据已知的会话数据,对用户下一时刻可能的行为进行预测,其中会话数据指用户在Web应用上的多个点击等交互行为组成的序列数据。会话推荐算法可以使用用户的单个会话或多个历史会话来进行推荐,一般而言,都需要从用户行为信息中建模出其长期偏好(静态意图)和短期偏好(动态意图)再进行推荐。基于图神经网络的会话推荐将会话转化为会话图,并从中捕获交互项之间的复杂转移关系,从而更全面地建模用户意图。不过当
学位