论文部分内容阅读
社交网络的蓬勃发展带动大量的用户进入了公共社交网络,除了众多普通用户以外,各行各业的专家也在其上留下了足迹,他们既是信息的消费者,也是信息的生产者。这一切成为社交网络人物搜索重要的数据基础,即人的基本信息,人与人之间的社交关系,与基于人和社交关系产生的微博、微博转发、微博评论等信息流。这些数据和早期专家搜索依赖的企业数据有显著区别。社交网络的数据除了人物众多、领域复杂以外,还具有个人信息稀疏,以及虚假和不稳定等特点,这使得在规范数据上有效的传统专家搜索方法用于社交数据中出现了新的问题。本文的主要工作核心是社交网络上的人物搜索,借鉴了推特公司的社交网络关系存放在单机上处理、Cngos采用分组数据等等前人的工作,并面向在社交网络上找到大量领域兴趣用户(找普通人)和在社交网络上找到领域权威用户(找专家)这两个需求展开研究。主要研究内容包括:社交网络的数据获取、数据索引、用户标签扩展和预测、以及人物排序等四个方面。在社交网络数据获取方面,就社交网络数据抓取中存在的抓取受限和被封的问题,提出了爬虫众包化和拟人化的解决方案,并实际开发和运维了中国爬盟,注册用户超过3万。获取了2.5亿用户的个人档案,8000万人的关注关系,超过200亿条微博,满足了绝大多数研究者对社交网络的数据需求。在数据索引方面,针对静态数据的特点和大规模数据索引的需求,提出了一种自底向上的静态数据构建索引的方法。经测试,单机索引达到100亿条记录、每记录耗费索引1比特、随机并发查询120万次每秒,性能指标显著好于开源NoSQL数据库:LevelDB和Tokyo Cabinet。该成果对外开放,并被众多高科技公司采用。提出了区分解决社交网络用户标签稀疏的问题:对完全没有标签的情况,采用标签预测的方法;对用户有一些标签的情况下,采用标签扩展的方法。标签预测首先通过逻辑回归的监督学习方法计算用户的亲密好友群,再通过亲密好友群的标签来进行标签预测,其结果比基线方法在P@1、P@5、P@10和R@20上提高超过80%。标签扩展通过用户自标签来构造伪标注数据,将标签扩展问题转化为监督学习的问题,测试结果表明我们的方法好于随机游走、生成模型等方法。其中P@1、P@5、P@10和R@10指标领先最好的已知方法10%以上。同时证实了用户双向好友关系的标签权重在训练过程中发挥的影响最大。在人物排序方面,提出了一种改进的PageRank方法用于对社交网络任务进行排序,实现社交网络人物搜索。对不同类型的人物搜索问题,进行了性能评测,发现学术类搜索中基于权威性的算法,职业类搜索中基于活跃性的算法,公司类搜索中基于投票数的算法取得了更好的性能。对通过已知专家找到隐藏专家的方法进行了研究,构造伪标注数据来训练监督学习模型。实验表明,在nDCG的评价方法下,通过增加隐藏专家的能提高人物搜索排名的效果。