社交网络人物搜索的研究

被引量 : 0次 | 上传用户:hou0608
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交网络的蓬勃发展带动大量的用户进入了公共社交网络,除了众多普通用户以外,各行各业的专家也在其上留下了足迹,他们既是信息的消费者,也是信息的生产者。这一切成为社交网络人物搜索重要的数据基础,即人的基本信息,人与人之间的社交关系,与基于人和社交关系产生的微博、微博转发、微博评论等信息流。这些数据和早期专家搜索依赖的企业数据有显著区别。社交网络的数据除了人物众多、领域复杂以外,还具有个人信息稀疏,以及虚假和不稳定等特点,这使得在规范数据上有效的传统专家搜索方法用于社交数据中出现了新的问题。本文的主要工作核心是社交网络上的人物搜索,借鉴了推特公司的社交网络关系存放在单机上处理、Cngos采用分组数据等等前人的工作,并面向在社交网络上找到大量领域兴趣用户(找普通人)和在社交网络上找到领域权威用户(找专家)这两个需求展开研究。主要研究内容包括:社交网络的数据获取、数据索引、用户标签扩展和预测、以及人物排序等四个方面。在社交网络数据获取方面,就社交网络数据抓取中存在的抓取受限和被封的问题,提出了爬虫众包化和拟人化的解决方案,并实际开发和运维了中国爬盟,注册用户超过3万。获取了2.5亿用户的个人档案,8000万人的关注关系,超过200亿条微博,满足了绝大多数研究者对社交网络的数据需求。在数据索引方面,针对静态数据的特点和大规模数据索引的需求,提出了一种自底向上的静态数据构建索引的方法。经测试,单机索引达到100亿条记录、每记录耗费索引1比特、随机并发查询120万次每秒,性能指标显著好于开源NoSQL数据库:LevelDB和Tokyo Cabinet。该成果对外开放,并被众多高科技公司采用。提出了区分解决社交网络用户标签稀疏的问题:对完全没有标签的情况,采用标签预测的方法;对用户有一些标签的情况下,采用标签扩展的方法。标签预测首先通过逻辑回归的监督学习方法计算用户的亲密好友群,再通过亲密好友群的标签来进行标签预测,其结果比基线方法在P@1、P@5、P@10和R@20上提高超过80%。标签扩展通过用户自标签来构造伪标注数据,将标签扩展问题转化为监督学习的问题,测试结果表明我们的方法好于随机游走、生成模型等方法。其中P@1、P@5、P@10和R@10指标领先最好的已知方法10%以上。同时证实了用户双向好友关系的标签权重在训练过程中发挥的影响最大。在人物排序方面,提出了一种改进的PageRank方法用于对社交网络任务进行排序,实现社交网络人物搜索。对不同类型的人物搜索问题,进行了性能评测,发现学术类搜索中基于权威性的算法,职业类搜索中基于活跃性的算法,公司类搜索中基于投票数的算法取得了更好的性能。对通过已知专家找到隐藏专家的方法进行了研究,构造伪标注数据来训练监督学习模型。实验表明,在nDCG的评价方法下,通过增加隐藏专家的能提高人物搜索排名的效果。
其他文献
在建立伺服阀控制非对称液压缸动态数学模型基础上,利用AMESim仿真软件构建了仿真模型,并结合生产实际系统对其动态特性进行了仿真研究。通过分析,找出影响实际生产中的主要
<正> “人天生是政治的动物”是亚里士多德(前384—322年)的名言,见于他的名著《政治学》的第一卷第一章。亚里士多德的这个命题,从理论上说,是为了探讨国家的起源,论证国家
海南岛是我国原藤的主要来源。本文通过对农户、采购商、制造商和政府官员的半结构化访问以及实地观察和收集资料等方式收集海南岛棕榈藤业的信息,得到如下结果:1)海南岛天然
<正>从中国人口臭史中甄别文明的痕迹脏话的进化论实际上是一个国家国民素质的文明进化论"脏话"原本不脏。在清理过程中,我们发现,对脏话的认识在世界各地几乎大同小异。随着
该文通过对高职高专院校微积分课程教学的思考,认为在教学中应当突出“化归”这一微积分教学中最基本的数学思想,这将有利于培养学生的数学素养和提高学生解决问题的能力,并
保障能源和环境可持续发展,特别是保证一次能源的供给是我国面临的重大战略问题。可再生能源将逐步替代化石能源,成为人类可持续发展的能源。在可再生能源中,潜力最大的是太
目的探讨CT定位微创血肿清除术治疗颅内血肿的临床效果。方法对16例硬膜外血肿、24例慢性硬膜下血肿、80例各种脑内血肿行CT定位微创血肿清除术治疗,并进行随访研究。结果患
<正>自2002年以来,我院共再植60岁以上的老年人断指41例52根手指,成活49指,成活率94.2%,术后恢复理想。1临床资料本组41例52根断指,男39例50根断指,女2例2根断指。年龄最小60
针对表贴式高速永磁电机中分块永磁体转子的强度分析问题,基于弹性力学理论,推导了分块永磁体转子强度的解析表达式.采用解析算法计算碳纤维护套、永磁体以及转轴中的径向应
对1970年1月至2012年12月西北地区东部51次5级以上地震序列进行统计研究,其中走滑型占58.8%,逆断和逆冲型占19.6%,正断型占11.8%。在相同破裂类型和序列类型下,主震与最大余