论文部分内容阅读
随着人工智能相关技术的发展,人们对于数据挖掘算法的研究越来越深入。当前,数据挖掘方法主要可以分为两类,一类是纯机器完成的算法,这种类型的算法往往能够很好的利用机器在存储、计算等方面的优势,较为快速且低成本的完成任务。但是这类方法也表现出越来越多的局限性,不能很好地处理一些复杂的问题,尤其是那些混杂了人类经验的问题,比如现在对于语义的理解依然是自然语言处理方面的一个鸿沟;另一类则是尝试通过将人的知识与计算机的能力结合起来,这方面一种广泛使用的方法是使用从专家收集相应的规则来进行相应的挖掘任务,然而这种方法代价过于昂贵并且由于领域专家的稀缺性难以扩展。规则作为知识的一种有效表达形式,传统的规则学习算法从数据中产生一些规则,然而,这种方式产生的规则一般质量不佳,甚至在较大规模的实际应用中无法使用;而利用领域专家提供的规则虽然能够达到非常好的效果,但是对专家存在严重的依赖,严重制约了这种方式的发展。众包作为一种能够利用群体智慧完成复杂任务的方法得到了广泛的研究。然而,由于众包工作者往往是一些不同背景的、知识水平差异极大的人群,如何高质量地汇集他们的知识是一个非常有挑战性的问题。针对上述问题,本文进入了深入系统的研究,主要工作和贡献包括如下几个方面:·提出了基于众包的规则生成和质量评估模型。首先,提出了一个框架用于收集众包工作者的知识和经验以产生规则,并同时通过对众包工作者的训练提高他们提供规则的质量。然后,设计了一个在线的规则收集系统用以激励和训练众包工作者产生初始规则。接着,我们针对情感分析应用,提出了一个规则质量评估模型来衡量规则的质量。·基于主动学习的众包工作者训练模型。众包工作者的能力直接影响到众包系统的表现,由于众包平台中的工作者往往缺乏合适的专业技能,因此对众包工作者的训练显得尤为重要。针对众包工作者的训练问题,本文提出了一种基于主动学习的模型,可以增强众包工作者的相关专业知识,同时高质量完成相应的任务。·设计了针对众包产生的规则的精炼算法。首先,通过冗余消除和规则细化,对前面获取的初始规则进行预处理,消除从众包工作者处收集的冗余规则;然后,通过一个贪心规则集提取算法得到最为有效的核心规则集。实验结果显示,经过提炼的核心规则集,核心规则集可以在较少的规则数量下达到与全部规则类似的效果。