【摘 要】
:
大规模社交网络中的二元关系预测问题是指通过已知的网络结构信息预测网络中已存在边的二元关系问题,该问题对于研究网络完整的结构和挖掘网络隐藏的相关信息都具有很重要的
论文部分内容阅读
大规模社交网络中的二元关系预测问题是指通过已知的网络结构信息预测网络中已存在边的二元关系问题,该问题对于研究网络完整的结构和挖掘网络隐藏的相关信息都具有很重要的意义。目前预测效果最好的方法是Jure等人提出了的使用LR模型的方法,LR模型是一种线性回归方法,不能很好的拟合大量的、复杂的社会关系,因此本文在此基础上提出了使用支持向量SVM模型来解决普通的社交网络中的二元关系。针对于普通的社交网络,本文主要在3个方面上进行了改进:第一,Jure等人虽然选取了23种特征描述网络,但通过分析发现在这23种特征中,存在一些线性相关的特征,这样的特征对于预测没有意义,但却会耗费时间以及空间,因此,本文通过特征选择的方法(PCA方法)进行特征选择。本文首先提出了10种新的特征,综合Jure等人的23种特征,一共33种特征,然后使用PCA对这33种特征中的11种特征进行了降维处理,选出影响力大的主成分,再对网络中的二元关系进行预测;第二,Jure等人使用LR的模型适合处理线性分类,而社交网络中的关系不是线性可分的,因此本文提出使用SVM模型进行分类,支持向量SVM支持非线性的分类;第三,使用Adaboost算法对已有的算法进行集成,将多个单独的算法作为弱分类器,使用Adaboost集成为一个强分类器,提高了预测的准确率。以上三个改进是针对于普通的社交网络中的二元关系预测问题的改进,而针对于大规模社交网络难以使用单一的模型进行预测的问题,本文提出了将一个大规模的网络划分为几个小的网络,然后对每一个子网络单独建立各自的SVM模型,取得了较好的预测结果。本文提出了两种划分网络的方法,第一种方法是根据边的EM值,即边的嵌入度来划分网络,第二种方法是使用K-means聚类方法将整个网络聚为K类。通过这两种分类方法将一个大规模的社交网络划分为几个小的子网络,然后对每一个子网络建立各自的SVM模型。该算法在Epinions,Slashdot以及Wikipedia三个数据集上进行了测试,在隐藏10%的边的条件下,slashdot中准确率从84.9%提升到了88.37%,在Epinions中准确率从92.62%提升到了94.31%,Wikipedia中准确率从70.16%提升到了75.65%。通过实验可以看出,使用SVM模型优于使用Logistic Regression模型,并且通过划分子网络的方法不但能够解决大规模社交网络中的二元关系预测问题,还能提高预测的准确率。
其他文献
超高分子量聚乙烯(Ultra High Molecular Weight Polyethylene,UHMWPE)是一种分子量巨大的线性聚乙烯,与聚乙烯(PE)有着相同的结构,但是具有普通PE许多没有的良好性能。本文利用超临界二氧化碳间歇发泡技术,开发UHMWPE泡沫材料,研究了饱和温度、饱和压力和不同发泡工艺路线对UHMWPE发泡样品的泡孔平均直径和泡孔密度的影响。此外,对UHMWPE两种改性材
混合梁斜拉桥充分利用了混凝土和钢材两种材料各自的优势,具有良好的跨越能力、受力性能和经济性能,已成为大跨径桥梁中极具竞争力的桥型。节段预制拼装桥梁也因其具有良好的技术合理性和耐久性,目前在我国逐渐得到应用。然而,对于应用节段预制拼装技术的混合梁斜拉桥的研究还鲜有文献报道,且研究深度较浅。因此,本文以石首长江公路大桥为依托工程,对混合梁斜拉桥钢-混结合段区域及边跨混凝土主梁的设计和施工方面的相关关键
低碳烃的分离纯化是化工领域非常重要的化工分离过程。传统的分离方式具有能耗高、工艺复杂,设备投资大等缺点。而吸附分离是一种低能耗分离技术,金属-有机框架材料作为一种新型多孔材料,具有比表面积高、孔道及表面功能性质可调控等优点,在吸附分离方面有着良好的前景。从工业的角度来看,仅研究吸附剂吸附分离的热力学是不够的,在真实的变压吸附分离或者变温吸附分离过程模拟及工艺优化中还需获得气体在多孔材料中的扩散动力
蕨藻红素(caulerpin)是从海藻中分离得到的具有八元环结构骨架的双吲哚类生物碱化合物,该化合物生物活性多样。但是该化合物在海洋生物体中含量很少,难以大量获取,很难进一步的研究与开发,并加以广泛的应用。本论文在课题组蕨藻红素全合成的基础上进行工艺优化,提高产率,为其研发提供原料。首先,论文以吲哚为原料,探索反应温度、时间及投料比例,以最优条件获得2-吲哚乙酸甲酯,收率达64%;使用新的催化剂醋
静止同步补偿器(D-STATCOM)应用于配电网中,可以有效提高功率因数,电网供电质量。D-STATCOM具有无功补偿、谐波抑制以及补偿三相不对称电流等多重功能,成为近年来电能质量控
果蝇的性别决定基因dsx与线虫的性别决定基因Mab-3的DNA序列比较表明二者具有一个高度同源的区域,称为DM基序。具有DM基序的基因,称为DMRT(Double sex and Mab-3 related tra
高阶累积分析(Higher-order Cumulants Analysis,简称HCA)是使用高阶统计量对非高斯过程进行状态监测而非传统的低阶累积量,高阶累积分析在过程状态监测领域是针对非高斯过程
萃取塔是一类重要的分离设备,在化学工业中具有广泛的应用。搅拌筛板萃取塔是一种由搅拌段、澄清段交替组成的萃取塔,相邻段由筛板隔开,能够降低返混,提高分离效率。萃取塔的液泛特性与液滴直径是重要的水力学性能,直接反映了两相流动状况,影响着萃取塔的处理能力与适应能力。研究萃取塔的水力学性能是设备能够应用的前提和基础。论文在搅拌筛板萃取塔内进行了液泛特性的研究,发现在不同的流速、搅拌转速以及体系物性条件下,
目的:运用中医传承辅助平台对张红教授治疗绝经前后诸证的医案进行研究,挖掘其组方规律,总结张红教授治疗绝经前后诸证的心得,以飨同道。方法:运用中医传承辅助平台(V2.5)对张红教授在2018年10月至2021年2月门诊治疗的绝经前后诸证患者病案资料进行录入、分析、导出,通过药物频次统计、基于关联规则的组方规律分析、基于改进的互信息法和熵聚类的方剂组方规律分析挖掘出张红教授治疗绝经前后诸证的组方规律;
果胶杆菌(以Pectobacterium ssp.为主要代表,1988年前为Erwinia ssp.)是引起植物软腐和黑胫病的病原菌的总称。自1901年首次报道后,随着分类手段与方法的进步,该类病原菌的分