论文部分内容阅读
大数据时代已经到来。数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的分析、优化及运用,预示着新一波生产率增长和消费者盈余浪潮的到来。手机、平板电脑、PC机、移动互联网、物联网、云计算、车联网以及遍布地球各个角落的各种各样的传感器,无一不是数据来源。基于大数据的应用如雨后春笋般出现,例如个性化商品推荐、足球胜负预测、电力大数据相关应用等。怎样分析出数据中的价值,怎样优化关键技术以提高现有应用的体验是近年大数据研究的发展趋势。然而面对不同类型的数据和日渐复杂的应用场景,数据分析与优化工作会面临很多不同的挑战。例如数据采集、数据整理和存储等常规问题;某些数据分析方法计算复杂度大、求解困难等问题;相同的处理方法在不同应用场景、不同分布的训练数据上得到的结果有时也很不相同。针对以上数据分析时所面临的问题,本文对三类应用数据做了智能分析与优化研究,具体做了以下几点研究工作:1.构建面向电力数据的发电优化调度算法传统的发电调度对于机组新产生的数据反馈较慢,不具备灵活性。决策由人的经验完成,没有充分利用历史数据,缺乏客观科学性。2014年初,安徽省已完成对发电机组污染物排放数据的实时采集工作,基于这些数据完善一个优化的、轻量级的发电调度方案势在必行。本工作对发电机组历史数据中的发电功率与污染物排放量进行回归分析,拟合出每台机组发电功率与排放数据回归模型,在此基础上设计优化调度算法使所有发电机组总污染物排放量降低。2.建立面向电商数据的用户特征预测模型在个性化搜索和推荐系统等应用中,完整的入口学信息特征是应用具有良好性能的前提条件。但是这些理想的数据集很少出现在实际的应用场景中,主要特征的缺失(如年龄、性别等)使这些应用无法正常工作。在本工作中设计了一个预测模型来解决时间依赖的人口学特征预测的问题。该方案的关键点在于利用时间回溯方法来将用户历史行为的内在时间关联考虑在内,然后搜集数据来训练分类器,使用户的历史行为与其人口学特征对应。3.提出一种面向空间磁感数据的字符识别方法设计了一个细粒度的字母输入系统Magemitet,该系统利用设备周围空间作为有限输入区域的扩展,用户以使用一个永磁铁在设备周围书写的方式来与该设备通话。Magemite的关键点在于集成在智能设备中的磁性传感器能够感知设备周围的磁场强度变化。不同于以往的磁感解决方案只能识别粗粒度的手势,Magemite能够识别用户细粒度的输入,例如英文字母。然而用户不同的书写模式会影响识别的精度。为了应对这个挑战,首先对输入的轨迹做了预处理,并提取了不同的特征来独特地刻画用户的输入,然后使用这些特征向量来训练字母识别模型。最终实验结果表明:在发电优化调度工作中拟合的发电功率与排放数据回归模型达到了97.02%的平均准确度,在10台机组上的实验表明本文的优化调度算法能使机组总污染物排放量降低4%,达到节能减排的目的;通过预测用户幼儿年龄的实验来验证用户特征预测模型的效果,在一大型电子商务平台的真实数据集下,我们的算法在各个年龄段上的表现更加均衡,并且在预测幼儿年龄时能达到78.2%的准确率;Magemite能识别用户细粒度的轨迹输入,在不同情景下的实验显示,Magemite能达到高于85%的平均识别准确率。