论文部分内容阅读
随着智能移动终端的广泛普及,各种社交应用软件迅速发展,为用户提供了方便快捷的通讯与分享体验,但同时因为用户规模的不断扩张,社交网络的泛社交化现象愈发明显,给用户的分享和浏览带来不利影响。当用户在分享状态时,由于好友列表中存在越来越多不熟悉的“好友”,导致个人信息的传播范围在无意中扩大,给用户带来隐私泄露的风险。另外,由于网络中的数据鱼龙混杂,用户在浏览信息时也不断受到广告、传销等垃圾信息的侵扰,严重影响了正常的用户体验。针对上述问题,本文面向发送端提出了一种基于社团划分和亲密度量化的隐私控制框架,面向接收端设计了一种具有更新能力的垃圾信息过滤系统。具体而言,本文的主要工作和贡献如下:1.提出了一种基于同质性游走的模糊社团检测方案。该方案的核心思想是对网络中节点的向量表示学习,再根据节点间的相似度进行聚类从而得到社团划分。当用户在发布动态信息时,通过该方案对好友列表进行社团划分,动态内容可以选择性地推送给相关组别内的好友,达到控制隐私信息传播范围的目标。具体地,首先引入同质化游走的概念,使随机游走的过程倾向于挖掘网络结构中的同质性,使社交网络中连接关系紧密的节点在向量空间中距离更近;然后使用模糊聚类算法,通过隶属度矩阵计算节点对各个组别的隶属程度,再设置阈值使一个节点可以同时隶属于多个社区,解决了传统方案不能用于重叠社区检测的缺点;最后在具有真实背景的社交网络中进行验证,证明该方案相比于现有方案发掘到的社团在内部模块度和外部准确率上都有明显的效果提升。2.提出了一种基于亲密度的隐私权限设置方案。为了解决社交平台中好友关系二元化定义不能准确度量好友亲密度、灵活性差等缺点,本方案利用数据挖掘技术,结合好友的属性信息、行为数据、环境因素,提出了细粒度的亲密度量化方法,并依据关系量化值设置相应的访问权限级别,进一步控制隐私信息的传播范围。具体地,本文首先分析了好友间亲密度的影响因素,在离线状态下训练关系量化模型,然后与线上社交平台结合,通过获取实时的特征数据进行亲密度的在线计算,最后基于计算得到的关系值设置不同的隐私权限开放级别。本文通过实验验证了本方案的有效性,证明其具有实际应用能力。3.设计了一种具有更新能力的垃圾信息过滤系统。首先使用Word2vec模型从爬取到的社交网络文本数据中生成词嵌入矩阵;设计了LSTM-CNN分类算法,通过结合长短期记忆网络处理时序信息的特性和卷积神经网络特征提取的能力来提升分类效果;设计更新系统,通过对模糊样本的重新标记,使分类器能够不断适应文本特征的变化。通过实验与传统的分类算法进行对比,证明本文提出的过滤方案可以在准确率上取得更好的效果。