基于概率图模型的社交网络信息过滤方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:jycysn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络平台的快速发展,人们面临着对爆发性增长的社交网络数据无从选择的困境,信息过滤成为帮助人们摆脱困境的有效方法。社交网络信息可分为无用的垃圾广告信息和正常的网络数据信息。垃圾广告信息降低了用户体验,影响了社交网络上的科学研究,所以需要被滤除,这种处理称为非个性化的信息过滤。而个性化的信息过滤是指从正常的网络信息中选取对用户有益的信息进行推荐。如此不仅提升了社交网络平台的用户体验还促进其自身商业价值的提高。个性化信息过滤需要构建准确的用户兴趣模型,并且能有效的分析预测用户的兴趣变化方向。这些均以社交网络数据为研究基础,然而社交网络数据具有复杂性高、多元性、不确定性等特点,传统的机器学习方法很难很好的处理这种数据。概率图模型有效的结合了概率论和图论的优势,能够有效的处理这种不确定性问题。因此本文通过利用概率图模型方法中两种典型的方法-隐含狄利克雷分配(LDA)和概率矩阵分解(PMF)来解决社交网络中的垃圾信息过滤和用户兴趣预测问题,并以此来说明概率图模型在处理社交网络大量复杂数据的优势以及应用前景。本文主要研究内容概括如下:第一,提出一种新的基于LDA分类特征扩展的微博广告过滤方法。当前的微博垃圾广告检测过滤方法主要是基于短文本分类的方法,但其很少考虑微博文本语义、短文本特征稀疏、背景领域特征及非平衡数据集分类的问题。本文方法从解决这些问题入手,引入LDA主题模型对短文本按照其所属类别分类进行特征扩展来缓解文本特征稀疏问题;通过识别背景领域特征并降低其权重来减弱对分类性能的影响;最后对于非平衡数据集的广告过滤问题,使用欠采样(under sampling)方法解决。实验结果显示,本文方法可以更准确的识别并过滤微博中的垃圾广告信息。第二,构建了基于社交圈的用户兴趣预测方法。针对现存的用户兴趣分析方法仅根据用户历史行为信息、相似用户等对用户兴趣进行分析,很少有研究工作主动预测用户的兴趣变化的研究现状。本文通过细致的分析发现,影响用户兴趣变化的因素主要有:用户历史行为信息、用户社交关系、兴趣主题间关联关系以及用户兴趣随时间的衰减。综合以上各影响因素,基于PMF方法设计实现了基于社交圈的兴趣预测方法。综合各实验评价指标表明,本文方法在用户兴趣预测准确率上较当前的兴趣预测方法有了一定的提升。
其他文献
应急疏散标识(emergency evacuation sign,EES)在紧急情况下具有指示逃生路径和方向的功能,是人群紧急疏散中重要的干预手段。现有成果没有考虑到疏散过程惯性对EES可见距离
随着数字技术与计算机网络的发展,视频数据量快速增长,如何组织和检索这巨大的视频信息成为一个难题。传统的基于文本来对视频信息进行检索的方法工作量巨大,而且文字标注缺
近年来频繁出现的雾霾天气引起了人们的广泛关注。雾霾天气不但对人们的健康产生一定的影响,还严重干扰了监控系统和侦查装备等的正常使用,例如在战场上导弹无法瞄准目标,交
随着计算机技术、半导体芯片制造技术和控制技术的发展,多轴同步控制技术得到了越来越广泛的应用,多轴同步控制系统也朝着高精度、高速度、高性能和开放式方向发展,控制系统
中点箝位型三电平逆变器自1981年被日本学者提出之后,迅速地应用于中高压、大功率领域。该拓扑结构与传统两电平的拓扑结构相比,具有明显的优势,器件承受的电压仅为后者的一
近年来,光伏发电得到越来越广泛的应用。光伏并网逆变器将光伏电池产生的直流电能转换为符合电网质量的交流电能,是光伏发电系统的关键设备。研究光伏并网逆变器的优化控制策
钢铁是国民经济基础原料,也是重要的战略物资。钢铁产业是国民经济支柱产业,钢铁产业发展水平是衡量一个国家经济水平与综合国力的重要标志。我国是产钢大国,但离钢铁强国仍
在烧结法生产氧化铝过程中,铝酸钠溶液碳酸化分解(简称碳分)是生产过程中的关键生产工序之一,经过上游脱硅工序后的铝酸钠溶液与输入的二氧化碳进行化学反应,生产出满足质量
无刷直流电机运行效率高、功率密度高、噪音小、寿命长,在诸多领域都有广泛应用。将无刷直流电机引入无轴承电机领域,构成的无轴承无刷直流电机是特种电机研究的一个重要的新
我国汽车行业正处于高速发展的时期,2010年我国汽车产销量双超1800 万辆成为世界第一大汽车市场,与此同时人们对汽车的舒适性及安全性提出了更高的要求。据统计大约70%的交通事