【摘 要】
:
针对目前虚拟现实影视作品中声音设计过程中缺乏客观量化指标、过于主观的问题,提出一套基于生态声学的虚拟现实影视声景量化方案.依据生态声学研究理论基础,方案将影视声景元素根据其发声动机划分成自然声、人为声和地球声三个部分,在该分类的基础上,通过计算各类别之间的比例来量化影视声景设计中关于地点、时间、天气等因素.实验样本来源于实地录制,将计算结果分别与客观实录情况和主观评测结果进行对比分析,实验结果表明,通过该方案计算得出的影视声景观量化结果与客观情况相吻合,与多数声音设计师的主观感受基本匹配,算法数据结果可靠
【机 构】
:
上海大学上海电影学院 上海 200072
论文部分内容阅读
针对目前虚拟现实影视作品中声音设计过程中缺乏客观量化指标、过于主观的问题,提出一套基于生态声学的虚拟现实影视声景量化方案.依据生态声学研究理论基础,方案将影视声景元素根据其发声动机划分成自然声、人为声和地球声三个部分,在该分类的基础上,通过计算各类别之间的比例来量化影视声景设计中关于地点、时间、天气等因素.实验样本来源于实地录制,将计算结果分别与客观实录情况和主观评测结果进行对比分析,实验结果表明,通过该方案计算得出的影视声景观量化结果与客观情况相吻合,与多数声音设计师的主观感受基本匹配,算法数据结果可靠,对虚拟现实电影声景设计具有一定的参考价值.
其他文献
图像二值化算法通过消除文档背景噪声将文本与背景分割开.针对古籍图像提出一种基于局部对比度和相位保持降噪的古籍图像二值化算法.根据归一化局部最大值最小值来构造古籍图像局部对比度,同时对古籍图像进行相位保持降噪.将局部对比度图像和降噪图像相结合来识别文本笔划像素.通过局部窗口内所检测的文本笔划像素估计局部阈值从而计算古籍背景修复模板.用图像修复算法和形态学闭操作来估计古籍背景.用所估计背景来增强古籍图像,采用Howe算法对增强后的古籍图像进行二值化求得最终结果.该算法在DIBCO2016、DIBCO2017和
在面向社区楼道或门栋监控中,人脸信息尤为重要.通过NB-IoT(窄带物联网)接入,可以满足低成本、广覆盖和多接入的需求,但是常规编码方法在窄带低码率下无法保障人脸质量.针对该问题,提出一种面向人脸业务的混合分辨率监控视频压缩方法.利用监控视频统计特性优化人脸检测速度,采用不同分辨率区别编码人脸和非人脸区域,在高倍率压缩下提高了人脸的可辨识性.实验表明,该方法相较于主流感兴趣区域编码,人脸区域PSNR提高了5.57 dB,编码速度提高了5.12倍,具备NB-IoT环境下的实用性.
随着云计算和信息技术的发展,制造企业逐渐由生产型向服务型转化.为了满足用户需求、解决云制造服务优选问题,提出一种基于多层次属性建模的云制造服务匹配和优选方法.对云制造服务资源和属性进行详细描述和划分,构建多层次属性描述模型.从基本属性、功能属性、非功能属性、综合匹配四个层次对候选服务和请求服务进行匹配计算.对不同类型的属性分别采用不同的匹配计算方法,包括基于本体语义的句子相似度计算方法、基于集合理论的匹配及欧氏距离计算方法.实验结果证明该方法具有良好的有效性和可行性,且相对于其他同类方法有较好的查询性能.
针对当前网络流量无法根据流量变化的特征进行预测,且通过单一或者组合模型依然得不到较高准确率的问题,提出一种基于HP(High-Pass Fliter)滤波的流量预测模型.基于高铁站流量数据日高夜低的周期特性以及流量波动增长的长期趋势,依据HP滤波将网络流量分解成周期序列及趋势序列.利用自回归-滑动平均模型(ARMA)对平稳序列预测的优势来进行周期变化的预测;使用人工蜂群算法(ABC)优化后的支持向量回归机(SVR)对趋势序列进行预测;将二者预测的结果叠加,使用遗传算法优化的BP神经网络(GABP)进行结合
乳腺癌是易发生且致死率高的恶性肿瘤之一,及早诊断识别是降低致死率的关键.基于应用广泛的乳腺癌病理图像,结合卷积神经网络展开乳腺癌的识别研究.针对癌症图像细节和纹理特征难以识别的问题,采用插值处理将图像进行适当放大,以便研究分析.针对卷积神经网络参数庞大不易训练和不易硬件实现的问题,提出一种精简的5卷积层W型网络结构,具有较少的权重参数,可以降低时间和空间复杂度从而便于硬件实现.精度损失曲线测试和混淆矩阵实验结果表明,与传统顺序结构5卷积层神经网络相比,采用提出的网络使乳腺癌诊断识别的准确率提高4百分点,且
针对现有算法的多尺度特征融合效果不理想和全局信息利用不充分的问题,提出一种基于多尺度优化和全局注意力的显著目标检测模型.利用特征增强模块对从骨干网络VGG-16中提取出来的粗糙特征进行增强,提升特征的显著性表达能力,对不同层次特征融合得到高层级和低层级特征;设计全局注意力模块,利用空洞空间卷积池化金字塔ASPP模块提取全局信息,计算特征的通道权重;利用通道权重引导侧输出进行特征学习能力提升,通过逐层连接方式得到最终预测结果.该方法在5个常用的数据集上进行测试,并与9种相关方法进行比较.实验结果表明,该模型
大规模MIMO-D2D异构网络中,可以通过在蜂窝用户和D2D用户之间使用相同的频谱资源来提高频谱效率,但是在信道估计中,共享相同导频序列的用户之间会产生严重干扰.为了解决该问题,利用卷积神经网络,通过学习最优的导频分配来推断导频分配结果以减轻导频污染的影响.将用户在小区中的位置和相应的导频分配作为输入和输出标签,通过穷举法得到用户位置的最佳导频分配作为训练数据.经卷积神经网络导频分配系统(CNN-PAS)分析训练数据,利用所产生的推断函数提供近似最优的导频分配结果.仿真结果表明,该方案实现了近98.78%
像传统机器学习一样,样本的不平衡分布会影响深度学习分类器的预测能力,在语音情感识别环境下,情感数据的不平衡分布是一种常态.基于卷积循环神经网络和注意力模型,提出一种随机平均分布的集成学习方法(Redagging),用来消除样本的不平衡分布.Redagging按照机会均等原则,等概率地把训练样例随机放入子训练样本,通过降低样例重复率提升基分类器的性能,进而增强综合分类器的预测能力.在IEMOCAP和EMODB情感数据库的实验表明,从未加权平均召回率和F1值两个方面,Redagging都优于Bagging和其
为更好利用输入视频的时域特征,提升异常行为检测精度,采用三维自编码器为主体的网络分支编解码视频的时空域信息,提出改进光流融合策略的时域分支提供额外时域信息.将双分支结果融合并计算重建误差,在此基础上进行异常行为的判断.针对目前像素评价指标的不足,提出一种改进的像素级别检测指标.结果表明,融合后的结果好于各分支单独的结果,且优于近年方法.可见网络分支与时域分支互为补充,进一步提升了模型的整体检测效果.
针对卷积神经网络进行语音识别时识别率较低的问题,结合序列的最大子序列理论,把真实数据和预测数据看作两个序列并计算两者的最大子序列,再使用欧氏距离计算MSLoss损失函数.使用闵氏距离和神经网络反向更新时的参数,提出自适应卷积核ACKS算法,根据网络传播情况动态地改变卷积核大小,改善模型在不同阶段对数据特性的提取效果.设计改进后的网络结构,把改进的网络与循环神经网络和长短时记忆神经网络进行识别率和计算时间的比较,实验结果表明,改进后的模型可以减少2%的运行时间并降低3%的误识别率.