基于用户特征的社交网络数据挖掘研究

被引量 : 50次 | 上传用户:hbffff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是互联网中最宝贵的资源之一,海量数据中蕴含着巨大的潜在价值,深入挖掘这些数据对于互联网电子商务、企业决策与推广、信息传播与预测均具有重要的意义。随着Web2.0网络应用与移动终端设备的发展,社交网络的普及率与使用率日益提高。相比传统网络应用形式,社交网络具有用户主体性强、网络特征多样、数据内容丰富、群体交互密切、信息传播迅速等特点。传统的研究方法与模型难以准确地描述社交网络中用户的行为特征,因而难以实现符合社交网络特性的数据挖掘与分析。鉴于此,论文结合交叉学科的研究方法,针对现有算法与模型运用于社交网络时存在的效果与性能问题,分别从互联网数据采集与处理、社交网络数据实证分析、用户影响力与行为分析、用户个性化推荐算法以及基于机器学习的信息预测算法等角度,对社交网络中的数据挖掘方法进行了研究。论文的研究工作得到了国家自然科学基金项目(No.61172072、61271308)、北京市自然科学基金项目(No.4112045)和高等学校博士学科点专项科研基金(No.20100009110002)的支持,论文的主要研究内容如下:1.研究了互联网数据采集与预处理技术。针对数据挖掘相关研究对于数据样本精度与模型处理性能的具体要求,提出了一套数据抓取与处理的完整方案。首先,优化了基于Nutch的分布式网络爬虫系统,实现了爬虫系统的并行化同步运行方式,提升了爬虫处理性能。之后,重点研究了网页信息解析算法,提出了基于规则与基于wrapper的网页解析模型。基于规则的网页解析模型逻辑简单且普适性强,适用于互联网海量网页的处理工程;基于wrapper的网页解析模型具有较高的信息抽取精度,且能够实现来自相同网站信息的结构化处理。最后,研究了网页快速消重算法与自动摘要算法,以到达降低样本特征的数量与维度,提高数据质量的目的。2.实证分析了微博社交网络特征与用户特征。对新浪微博在线数据进行了多维度分析,包括用户特征、微博特征、时间与演化特征等,探讨了作用于用户影响力与微博传播关系的主要因素。在上述分析的基础上,提出了一套微博社交网络用户权重计算模型。该模型由用户活跃度特征与基于HITS算法的用户影响力特征加权实现,并在数据分析的基础上改进了HITS算法的实现方式,降低了传统HITS模型用于迭代的运算时间。社交网络中更强调人与人的交互关系,本文用户权威性分析,为进一步研究社交网络中的信息推荐与传播机制提供了理论基础。3.研究了社交网络中的用户个性化推荐算法。针对传统推荐算法不足以描述社交网络中的用户偏好性问题,提出了基于统计特征的微博推荐算法。该算法由用户微博内容偏好性、微博作者影响力水平与用户交互关系三大特征加权构成,算法逻辑简单,计算性能较高,适用于在线微博平台的应用级研究。为进一步提高模型的推荐精度,论文借助基于二元网络的NBI推荐模型,对NBI模型初始矩阵与计算中连接权重进行了优化,并将具有社交网络特色的用户特征对于微博的偏好性影响加入到模型中,实现了微博的个性化推荐。试验结果表明,该算法相比NBI模型或单一偏好特征推荐模型,具有更好的个性化推荐效果。4.提出了基于机器学习的信息预测方法。结合微博社交网络的真实数据,分析了影响用户连接关系以及微博传播的主要特征因素,建立了基于SVM的用户连接关系预测模型与基于逻辑回归的用户微博转发模型。为提高算法的预测性能与big-data模式下模型的实现方式,初步探讨了相关机器学习模型的并行化参数训练方法,提出了SVM模型的松弛变量权重优化算法,提升了模型的预测精度。最后,以用户微博转发模型计算结果作为个体决策先验概率,利用蒙特卡罗仿真方法模拟了微博在社交网络中的传播过程。该方法通过微观个体决策模型,结合全局仿真,不但能够预测信息的宏观传播趋势,还可以发现传播路径中可能存在的关键用户节点,为信息的传播预测研究提供了参考和借鉴。
其他文献
气候变化已成为各国进行政治、经济和文化博弈的重要议题。因温室效应引起的环境问题逐渐引起了人们的关注。为全面控制二氧化碳等温室气体的排放,以缓解气候变暖给人类经济
2007-2009年的金融危机使得许多金融机构遭受到严重的损失,而金融机构过度承担风险的行为被普遍认为是这次危机爆发的重要原因。危机爆发后,一种新的货币政策传导机制理论,银
摘要:商誉是企业所持有的且与其自身有密切联系的一种特殊利益。作为企业的一种特殊资源,如何准确、合理的确认和计量商誉一直是学术界讨论的热点话题。美国是最早规范商誉的
随着城市用地的日趋紧张与城郊环境的不断发展,越来越多的别墅区选择建设在城市用地之外,出现了许多位于城郊的山地别墅区。这一类别墅区距离城市距离一般较远,并与山地这一
摘要:近年来,随着我国经济的发展,人民生活水平不断提高,对于食品质量的要求也越来越高,特别是生鲜农产品。由于生鲜农产品的易腐性导致它们必须冷链运输和储存,其中,水产品的
摘要:随着我国城镇化和国民经济的发展,人们对鲜活农产品质量的要求不断提高,而鲜活农产品易腐烂、生命周期短等生理特性,导致鲜活农产品在城市配送过程中品质下降,甚至存在大
旅游业现在进入了一个大资本投入、大市场运作、大产业化运行的新阶段。旅游投资热潮催生了每年数以万记的旅游项目。但是我国的旅游产业在产业结构、企业利润率、经济效益、
目的 研究肥胖以及2型糖尿病人体内组胺的水平,目的 在于证实体内的组胺是否与肥胖和糖尿病发病有关.方法 与结果 糖尿病病人体内组胺水平高于健康对照者,糖尿病酮症酸中毒病
清代词集序跋中的尊体之论,主要体现在三个维面:一是从创作实践之难角度对词体的推尊,二是从诗词同源或同旨角度对词体的推尊,三是从有补于诗歌艺术表现角度对词体的推尊。上
肿瘤的形成受遗传学和表遗传学修饰的影响.近年来,越来越多的证据表明,表遗传学修饰在肿瘤进展中同样有重要作用,表遗传调控可以影响基因转录活性而不涉及DNA序列的改变.胃肠道肿