基于数据理解的数据产品在线诚实定价机制研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:edu009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据技术在许多领域取得了显著成就。基于大数据的许多智能应用与服务被开发并广泛应用于各行各业,如语音识别、智能推荐、智能监控、自动驾驶、物体检测、交通流量分析、噪声监测、药物研发等。因此,对于基于数据的服务提供者来说,迫切需要对数据及数据产品进行有效质量分析和数据获取和交易机制。为了促进数据服务提供商和数据拥有者之间的数据流通,国内外出现了各种数据共享和交易平台。代表性的数据交易平台有国内的贵阳大数据交易所、京东万象、数据堂等;国外的如Datacoup、Azure Marketplace、CitizenMe,DataExchange,Factual,Qlik等等。最近数据交易的研究受到国内外的广泛关注。数据产品包括多种形式,如原始数据、标注数据、数据统计结果、数据分析报告、数据应用程序、和数据学习方法。本文重点研究移动应用程序这一特殊数据产品的行为与质量评估,和针对数据价值随时间变化的用户行为诚实可保障的在线数据交易机制设计问题。本文的主要研究内容与贡献如下:一:全面分析应用程序这一特殊数据产品的行为,是理解不同应用程序的有效方法,也是衡量应用程序产品相似度的有效方法。分析应用程序功能和行为主要有两个分支。第一个研究分支基于源代码以静态、动态或混合的方式进行细粒度的行为分析。第二个工作分支侧重于从应用程序中提取预定义的特征。最近的一些工作使用循环神经网络(RNN)以监督的方式在应用程序执行期间提取恶意软件特征。然后将监督学习模型,例如SVM、朴素贝叶斯和深度信念网络(DBN)等应用于这些特征以检测恶意软件。尽管这些机器学习方法提高了恶意软件检测效率,但局限性在于手工制作的基于任务的特征和对手动标记的训练数据的依赖。由于是为可能的恶意行为量身定制,预定义和自动提取的特征都无法全面表征不同的应用程序行为。本文设计了一个APPDNA框架来自动为每个应用程序生成一个紧凑的表示,以全面地描述它的行为。我们提出的通用表示方法只需要为每个应用程序生成一次表示,然后可用于各种目标,包括恶意软件检测、应用程序分类、抄袭检测等。我们提出基于函数调用图的应用程序分析方案,促进全面深入地理解应用程序的行为。我们设计了一种图编码方法,将典型的大型函数调用图(FCG)转换为一个64维固定长度向量,以实现稳健的应用程序分析。这个工作的主要创新点是1)提出了一种函数调用图的鲁棒编码方法,可以抵抗大部分的程序修改行为,2)设计深度学习方法来对应用程序获得一个稳定的和统一的表示,可以服务多个检测和分类目标。我们的编码方法对多种修改是鲁邦的。与传统方法相比,我们的方法可以通过较小的开销,支持更多的功能,在更短的时间内达到更高的精度。我们对86,332个应用程序的广泛评估表明,我们的系统以高精度和极低的计算成本执行应用程序分析:在大约5.06秒内对所有4024个(良性/恶意软件)应用程序进行分类,准确率约为93.07%;在大约0.83秒内对所有570个恶意应用程序家族(共21个家族)进行分类,准确率82.3%;将9,730个应用程序的功能分为2类,准确率88.1%,如果分为7类,准确率33%。研究移动应用这一个特殊的数据产品的“质量”评估可以丰富不同类型的数据产品质量评估能力,是对经典数据质量评估的一个补充。数据质量评估给数据交易机制提供了一个质量的保证。尤其对于移动应用等智能数据计算类产品,我们可以保障应用的安全性,防止采购的这一类的数据产品对用户造成大的危害。二:对于怎么卖数据,现有的数据交易平台主要有三种方法:标定价格,按调用次数收取,咨询客服。1)标定价格:数据销售商根据自身的成本,按照一定的策略提出一个价格。2)按调用次数收取:主要针对API接口,随调用次数增加有一定折扣。3)商业谈判:买方和卖方进行协商谈判确定一个合理的成交价格。这三种数据定价方式共同缺陷是缺乏定价机制的理论指导,定价带有一定主观性。本文主要研究时间敏感的数据交易机制。我们针对用户对数据的价值预估值是随时间而变化的。我们假设数据的价值波动可以通过一个连续的折扣函数来d(t)表示。针对时间敏感的价值函数,设计了一些在线、用户诚实保障、和收入竞争比保障的算法机制。我们首先证明了在不同的假设条件下的算法机制的收入竞争比率的下界,例如当函数d(t)是一个任意函数的时候,Ω(n)的下限;当d(t)是一个单调不增的函数时候,Ω((log n)/(log log n))的下界。然后,我们为各种对抗模型提出了几种在线的、用户诚实保障的算法机制。我们提出了一种机制M1,并证明了当每个折扣类中的用户数nc是常数倍可比的时,它是用户诚实保障的,并且具有Θ(log n)收入竞争比。然后我们通过放宽折扣函数中分类规模的条件,提出了另外一个用户诚实保障的机制M’W,并证明其竞争比是Θ(n logn)。当我们可以在一个常数因子内估计最佳预期收入时,我们提出了一种具有常数竞争比率的用户诚实保障的在线定价机制。我们的主要创新点是1)巧妙的设计了一些攻击输入来证明任何拍卖机制的竞争比率下界,2)通过把折扣函数的分类来解决时间敏感的价值带来的挑战。三:当数据的初始价值满足一些分布时候,我们设计了三种不同的基于标价(posted-price)的数据交易机制来近似最大化卖家的利润,包括固定标价机制和动态标价机制。我们研究买家的初始估值是从给定分布中随机抽样获得的的情况,其估值分布和折扣函数都是给定的。我们的第一个机制MF是让卖家设定一个固定价格,每一个到达的买家只能接受这个价格或放弃。在这里,我们可以利用迈尔森拍卖的思想来计算最优保留价x。但是,由于d(t)的存在,即使使用简单的PDF函数f(例如均匀分布)也很难准确计算最优的价格。为了进一步提高性能,我们还通过动态更新保留价格设计了机制MD和机制MT,并证明这两个机制的常数收益竞争比率。我们然后把拍卖机制扩展到一般的分布情况,并设计了基于学习的机制ML。我们证明这些机制都是有常数的竞争比率,并保证用户诚实的。我们的实验结果评估表明,我们的机制在大多数情况下都表现得非常好,我们的数值实验的各项性能指标比理论保障的性能要好许多。
其他文献
NLRP3炎性体是一种在各种刺激下组装的细胞内多蛋白复合物,它控制caspase-1的激活,并调节IL-1β和IL-18的分泌。NLRP3炎性体的激活已被发现与很多慢性疾病息息相关,包括肺部纤维化、阿尔兹海默症、动脉粥样硬化、肥胖及癌症等。当前,多种纳米材料已被发现能够通过溶酶体破裂、活性氧物种产生、钾离子外流等途径激活NLRP3炎性体,引发纤维化疾病,这与其特有的理化性质密切相关。而环境和食品中
学位
疏水颗粒与界面间的相互作用是一类具有动态润湿的流固耦合问题。这种现象不仅在自然界和日常生活中广泛存在,而且对工业生产起到极为重要的作用。由于这类流动问题不仅包含着移动接触线、界面毛细波和流固耦合等一系列非定常复杂流动现象,还涉及到浸润性、运动颗粒的直径和速度等多种影响因素,其中的流动机理尚未得到深刻认识。本文结合实验、数值模拟和理论分析的方法,聚焦颗粒的运动状态与流体界面间的相互作用,主要研究了三
学位
扩散磁共振成像(diffusion magnetic resonance imaging,dMRI)能够测量组织中水分子的扩散,是评估组织微结构特性的有效手段。并且,dMRI是目前唯一被广泛应用于白质纤维束无创可视化的成像技术。然而,dMRI在临床应用及科学研究上的潜力并没有得到充分的挖掘,仍有很多的应用场景值得探索。因此,本文试图利用dMRI微结构特征及脑白质纤维束追踪技术,为临床和基础科学问题
学位
低碳能源是降低碳排放和可持续发展的重要方向,电化学储能作为其中重要的一环,其市场规模将越来越大。目前,以石墨为负极的锂离子电池容量逐步接近其理论极限,但仍无法满足市场对于更高能量密度储能的需求。用具有更低电势和更高容量的锂金属替代石墨作负极是发展下一代高能量密度锂电池的有效策略。然而,锂金属负极的商业化应用依然面临许多问题和挑战,比如,锂金属在循环过程中,由于其巨大体积变化,会导致固态电解质界面(
学位
地震波数值模拟是进行强地面运动模拟和地下结构成像的重要工具。强地面运动模拟和全波形反演中涉及大规模宽频地震波数值模拟,对计算资源需求量大。有限差分法是目前较为常用的地震波数值模拟方法。与其他数值方法相比,有限差分法较为简单高效。针对复杂模型,有限差分法采用的结构网格生成容易。同样由于采用结构化网格,有限差分法容易部署到大规模高性能计算平台,以提高计算效率。传统的有限差分法模拟采用均匀网格,网格步长
学位
有限差分算法可以简单高效地模拟二维/三维非均匀模型中地震波传播,在提出了基于应力-速度的一阶差分格式后得到了广泛的应用。当研究区域-全球尺度的地震波传播时,必须要考虑地球曲率的影响。虽然可以通过网格变形或者展平变换等方法转化计算,但是选用极坐标系(二维)或者球坐标系(三维)更为直接方便,因此很多工作基于极/球坐标系下有限差分算法进行。地形起伏会明显影响地震波传播。前人提出了多种方法在有限差分中处理
学位
近年来,水力压裂技术已经广泛应用于油气田开发过程中,尤其是对于储量巨大的非常规油气的开发,水力压裂已经成为必要的手段之一。微地震监测技术是在地面或者井下布设检波器来接收由于地下岩石破裂产生的微地震信号,通过对记录到微地震事件进行震源定位、震源机制反演等方面的研究,从而对水力压裂的效果进行评估。而通过地震学中震源定位的方法获取微地震事件的震源位置则是微地震监测的基本目标之一。在众多地震定位方法中,基
学位
39Ar是一种宇生同位素。由于它的来源比较单一、在大气中分布均匀且化学性质不活泼,因此是环境水样品的理想定年示踪同位素。39Ar的半衰期为269±8年,其定年范围约为50~1,800年,恰好填补了传统氚定年和14C定年的空档。39Ar独特的定年范围使其在冰川定年、洋流循环以及地下水研究中有着重要的应用。但是39Ar的自然丰度非常低(I.A.=8×10-16),分析环境样品中的39Ar对检测技术是一
学位
随着飞行工况的提高以及重复使用需求的进一步明确,主动冷却技术将成为推进系统内部和飞行器外部高热部位主要的热防护措施,考虑到在高马赫数飞行条件下引气气膜冷却与燃料再生冷却存在的冷却不足问题,本文进行了以液态水为冷却工质的复合冷却结构的机理研究,目的在于探索单一液态水工质复合冷却方式的传热特征及性能极限,为新型多工质复合冷却结构的设计提供参考。从冷却工质的热沉利用角度量化分析了气膜冷却应用中的气膜层隔
学位
自lin-4和let-7等小RNA在秀丽线虫中被发现以来,后续的研究揭示了小RNA广泛存在真核生物中,并在机体的生长、发育、生殖、遗传和免疫防御等方面行使重要功能。近些年来,随着越来越多新型的小RNA被发现,小RNA的分子功能及参与的生物过程也在不断拓展,其功能的实现方式也被不断揭示。对小RNA的研究,促进了研究人员对生命现象的理解,促进了生物技术的开发。本项工作中我们利用线虫筛选抑制siRNA生
学位