社会化数据挖掘中的若干问题研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:liuaxing1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0的热潮催生了众多的以用户为中心的应用。在这些应用中,普通的万维网用户不仅仅是内容的消费者,并且是内容的生产者。例如,在像Twitter这样的微博应用中,普通用户发布微博公开自己正在做的事情,关注其他用户收听到他们发布的微博,转发他人的微博进一步传播信息;在像亚马逊MTurk这样的众包应用中,普通用户可以参加人工标注任务(标注一篇文档的类别,翻译一个句子,标识照片中是否包含头像等等)来赚取报酬;在像亚马逊,EBay这样的在线商城中,普通用户可以对商品打分并且添加评论,这些评论会帮助其他用户更好的了解商品,也给商家提供了第一手的反馈意见;在像维基百科这样的协同编辑网站中,普通用户可以协作完成像编辑百科全书这样规模巨大的项目。根据Alexa的统计,在排名前20被访问次数最多的网站中,11个是以普通用户为中心的。我们将这种借助社会上普通用户的力量的应用称为社会化应用,将普通用户通过社会化应用产生的数据称为社会化数据。各式各样的社会化应用产生了海量的社会化数据。如果应用得好,这些数据可以帮助到为数众多的数据挖掘和自然语言理解任务。例如,微博数据可以用来侦测突发事件和预测股票走向;众包数据可以为有监督的模型提供训练标注;用户评论数据可以用来训练情感分类模型;维基百科的数据可以用来构建知识库并且支撑语义网络中的众多应用。然而,社会化数据也存在着很多问题,阻碍了其在实际中的直接使用。首先,社会化数据的制造者是普通的网络用户,他们之中很多人没有通过资格考试,也没有参加过培训。由于专业水平的参差不齐,社会化数据中不可避免的包含了很多错误;其次,有些恶意用户故意散播谣言和制造垃圾信息,导致社会化数据中包含很多虚假有害信息;再次,在像商品评论,微博,博客这样的应用中,为了方便使用,往往允许用户使用自由文本或者半结构格式发布信息,这样缺乏结构的社会化数据很难直接被机器理解和自动处理。针对社会化数据中存在的问题,我们从粗粒度到细粒度的顺序,对社会化数据挖掘中的几个重点问题展开研究:对于多个用户产生的数据,我们研究如何优化众包序列标注。主要的挑战是众包标注中包含很多错误信息。为了纠正这些错误信息,我们提出了聚合统计模型,考虑了三方面的因素来提高标注的质量:(1)多数用户赞同的标注很有可能是正确标注;(2)有过正确标注的众包参与者更值得信赖;(3)如果一个众包参与者正确标注过一条序列,那么他也很有可能正确标注其他具有类似特征的序列。通过使用聚合模型,我们可以从来自多个用户有噪音的标注中,推导出一个统一的并且质量较高的序列标注。我们进一步在聚合模型上加入了主动学习的策略,优化众包序列标注的流程。在保证标注质量的前提下,尽可能的降低众包标注的费用。对于单个用户产生的数据,我们研究一种特别的微博用户:“僵尸用户”。在微博平台上,以下两种交易导致了僵尸用户的出现:其一是购买粉丝:许多明星通过购买大量粉丝来人为制造自己的知名度,作为和广告厂商谈判的筹码。许多普通用户也有意愿购买粉丝,作为炫耀的资本;其二是购买转发:因为新浪微博使用转发量来选取热门微博,很多厂商购买僵尸用户转发广告微博,这样不仅可以扩大宣传范围,也可以让广告微博登上热门微博榜单。通过人为制造粉丝数量和转发数量,僵尸用户造成了微博数据的失真,这不仅会误导普通用户,也会影响基于微博数据的第三方应用。为了提高微博数据的可靠性,我们利用两方面的信息来侦测僵尸用户:(1)微博用户的个体特征;(2)用户之间的社交关系。通过使用这两方面的信息,我们提出了一种半监督的检测模型来区分僵尸用户和正常用户。对于单个用户发布单条数据,我们研究一种特别的微博:“软广告”。在微博平台上,热门微博主具有很强的宣传效应,他们发布的内容可以为数千万用户所看到。很多商家会找热门微博主发布广告内容,我们称之为软广告。软广告没有特别的区分标签,因此具有很强的欺骗性,没有经验的用户会把软广告当成微博主的真心推荐。有经验的用户虽然可以区分软广告和正常微博,但是阅读夹杂着软广告的正常微博会伤害用户使用体验;对于微博平台来说,软广告会抢占他们的广告市场份额。由于软广告的隐蔽性和热门微博主的号召力,很多商家会绕过平台直接和微博主联系。为了保护用户和平台的权益,我们使用有约束的共聚类方法来识别微博软广告。这种方法同时考虑了结构化信息和文本信息。与分类方法相比,这种方法可以解决数据异构的问题,达到更高的识别精度。对于单条数据中模式,我们研究如何从用户评论中抽取出具有情感倾向性的模式。这种模式既可以用来训练情感分类器,又可以作为用户评论的摘要。我们将这个问题抽象称为频繁项集挖掘问题。由于评论数据规模巨大,常规的频繁项集挖掘算法会遇到的组合爆炸的问题。本文提出了一种新的方法:基于迭代采样的频繁项集挖掘。这种方法没有直接处理整个数据集合,而是通过迭代采样降低了问题的规模。我们从理论和实践两方面证明,通过迭代一定的次数,既可以避免组合爆炸,又可以保证较高的覆盖率。本文提出的方法非常易于并行化,并且具有很强的鲁棒性。我们在跨领域和跨语言的用户评论中挖掘出了具有情感倾向性的自由模式。
其他文献
本文较全面地论述了在混凝土搅拌站实现计算机集成系统的过程及效果,分析并研究了计算机生产控制系统、计算机生产管理系统和远程网络通讯管理系统。
3 压力耦合二次调节系统的特点及静态特性3.1 二次调节技术与特点在静液传动系统中,一般将机械能转化为液压能的元件--液压泵称为一次元件,而将液压能与机械能互相转换的执行
使用烟道灰制作保温冒口,提高铸件质量济南新型建设机械厂宋正廷众所周知,谈起各类机械的生产制造,首先离不开铸造生产。然而,铸造生产却又工序繁多,难以精确控制,而且铸造质量还极
目的探讨不同肝血流阻断方案对大肝癌患者外科治疗效果的影响,为临床疗效提供参考。方法回顾性分析2011年1月至2014年12月100例大肝癌行外科手术治疗患者的临床资料,术中41例
建立了液压覆带起重机回转运动时的多刚体动力学模型,用牛顿-欧拉方法得到载荷摆振的动力学方程。给出了各杆件的受力的递推公式,为起重机设计和载荷摁振控制提供了理论依据。用
以京优葡萄为试材,研究不同浓度ABA和乙烯利处理果穗对果皮花色苷含量及果实品质的影响。结果表明,ABA和乙烯利处理皆能促进果实软化、有机酸降解、可溶性固形物和果皮色素积
图像融合利用特定数据处理手段和融合规则提取多源图像的互补信息并进行综合表示,实现对观察对象更为全面、具体的精确表达。融合图像比源图像分辨率更高、信息集聚度更强,其
成像技术在向更高分辨率发展的同时,也在向更高的动态范围(HDR, high dynamic range)发展。但是硬件设备的发展滞后于人们对HDR图像捕获与显示的需求,数码相机的动态范围往往
可编程序控制器(简称PLC)是在继电器和计算机控制的基础上开发出来的,它以微处理器为核心,是把自动化,计算机,通讯技术融为一体的新型工业自动控制装置,采用功能强,可靠性高,通过性能好,使