【摘 要】
:
摘要;随着移动终端的大规模普及所产生的海量移动通话数据使得面向移动社会网络的分析,尤其是用户特征分析等方面愈加重要.移动社会网络数据存在网络结构复杂,节点间标签相
【机 构】
:
北京大学信息科学技术学院/中兴通讯股份有限公司
论文部分内容阅读
摘要;随着移动终端的大规模普及所产生的海量移动通话数据使得面向移动社会网络的分析,尤其是用户特征分析等方面愈加重要.移动社会网络数据存在网络结构复杂,节点间标签相互影响,包含交互信息、位置信息等多种复杂信息等特点,给识别用户的特征带来了许多挑战.针对这些挑战,本文通过分析一个真实的移动网络数据,利用统计学分析提取出已标记的不同特征用户间的差异,并利用这些差异,借助关系马尔可夫网络建立预测模型对未标记用户的年龄与性别进行特征识别.分析表明,不同年龄、性别的用户在不同时段的通话概率、通话熵,位置信息的分布、离散性,在社会网络中的集聚程度,以及相互之间二元、三元的交互频率方面都存在明显的差异.利用这些特征,提出了利用二元和三元交互的关系基团模板,结合用户自身的时间空间特征,通过关系马尔可夫网络计算用户特征的全联合分布概率,进而以此推断用户的年龄与性别的方法.经过试验分析,利用关系马尔可夫网络、用户时空信息和用户交互的关系基团的分类方法相较于传统的C4.5决策树、Random Forest、Logistic Regression和Naive Bayes等分类方法,能够提高最高约8%的预测准确率.
其他文献
目的随着互联网的飞速发展,需要处理的数据量不断增加,在互联网数据挖掘领域中传统的单机文本聚类算法无法满足海量数据处理的要求,针对在单机情况下,传统LDA算法无法分析处
本文针对当前职校生语文学习中存在的问题,积极寻找解决途径,以期能充分调动学生的学习积极性,激发学生的学习兴趣,有针对性地加强和改进学校的教学质量。
This article aim
近年来我国经济高速发展,汽车保有量与日俱增,有关车辆事故和犯罪的事件常有发生,套牌车、假牌车的数量也越来越多,仅仅依靠现在的车牌识别技术获取车辆信息已经不能满足现实
蓄热技术可用于解决热能供给与需求失配的矛盾,是提高能源利用效率和保护环境的重要技术.近年来,随着中国经济的快速发展和人们生活水平的不断提高,建筑能耗占总能耗的比例也
Phytohormone ethylene controls diverse developmental and physiological processes such as fruit ripening via modulation of ethylene signaling pathway.Our pre
本文采用改性AlO载体,用浸渍法制备了丙酮一步法合成甲基异丁基酮(MIBK)Pd/改性AlO催化剂.采用固定床小试、中试装置考察了改性AlO载体、活性组分Pd含量、原料规格、制备条件
研究从非结构化文本中抽取指定人物职衔履历信息的方法.针对履历信息中知识密集的特点,定义职衔履历知识结构,提出从字符串模式和依存上下文两个角度刻画履历信息.采用弱监
基于短文本的事件探测技术,成为学术研究领域的热点问题。而微博数据是短文本事件探测的典型数据源,含有丰富的人们日常生活信息。近年来,以食源性疾病为代表的食品安全问题
Postharvest research is relatively young and has been rapidly increasing since the 1980s.Its main objective is to reduce postharvest losses by enlarging ins
聚[2,5-二羟基-1,4-苯撑并吡啶双咪唑](PIPD),简称"M5",由于沿分子链方向存在大量的-NH和-OH基团,能够在大分子间和分子内形成强烈的氢键,使该纤维的抗压强度达到1.7GPa,热处