论文部分内容阅读
本刊讯 一个叫「Xiaomingbot」的AI机器人,最近忙坏了。
里约奥运会期间,AI机器人「Xiaomingbot」通过对接奥组委的数据库信息,实时撰写新闻稿件,以跟电视直播几乎同时的速度发布稿件。据了解,Xiaomingbot主要报道乒乓球、网球、羽毛球和女足的比赛,在16天内共发布奥运新闻456篇简讯和资讯。
Xiaomingbot是今日头条实验室研发的AI机器人,可以通过两种文本生成技术产出新闻:一是针对数据库中表格数据和知识库生成自然语言的比赛结果报道,即简讯;二是利用体育比赛文字直播精炼合成比赛过程的总结报道,即资讯。
Xiaomingbot到底是什么来头?
Xiaomingbot,是今日头条实验室的研发成果,其「写稿」模块是由头条实验室与北京大学计算所(万小军团队)联合研发而成。
李磊博士正在跟团队的小伙伴改良机器人算法。
这是国内第一款可以报道奥运赛事的人工智能机器人,在结合了最新的自然语言处理、机器学习和视觉图像处理的技术之后,通过语法合成与排序学习生成新闻。头条实验室负责人李磊博士介绍道,Xiaomingbot通过连接数据库实时更新比赛信息,搜集相关选手背景信息,根据比赛规则判断比赛进程,进而生成文本,自动配选图片,最后润色完成报道。机器人可根据比赛的总比分、每节比分情况以及比赛的不同项目、不同状态,生成不同的短讯和长文比赛详情描述。
相比国内第一代写稿机器人——腾讯的 「Dreamwriter」和第一财经的「DT稿王」,Xiaomingbot的写稿技术已经进入第二代写稿水平。与第一代机器人相比 ,Xiaomingbot特征显著:
1. 速度快 数据库数据更新的2秒之内,即可生成新闻稿并完成发布。2秒的时间包含了从生成、提交到头条号「奥运AI小记者Xiaomingbot」发布、通过头条的推荐算法机制分发推荐给用户的整个过程。
2. 样式多 既可以生成长的详细比赛描述总结,也可以生成简明扼要的快讯简报,以前的自动体育新闻只能生成较短的文章。
3. 自适应 根据比赛选手的排名,赛前预测与实际赛果的差异,比分悬殊程度,可以自动调整生成新闻的语气,并使用感情色彩的词语,如实力不俗、笑到了最后等。
4. 自动配图 以前的自动新闻都只能生成文本,通过自动选图技术,Xiaomingbot可以給新闻配图,更加生动形象。
能做到这些,头条实验室给Xiaomingbot的写稿模块使用了3种核心技术:一种是通过概率文法生成文章,也就是说这个机器人生成的句子会有完整语法结构,有主语、谓语、宾语、时间、人物、地点等要素,同时不拘泥于一种形式来描述比赛,会有变化;另一种是通过排序学习算法决定一场比赛新闻描述中需要选择什么样的句子,重要的句子才会在新闻里出现;还有一种是在技术上不算特别难,却非常重要的比赛逻辑判断,可根据每种项目不同的比赛规则来判断比赛的激烈程度和比赛进程如是否结束、是否中间退出比赛等。
据了解,目前在做奥运报道的机器人只有两家——《华盛顿邮报》的「Heliograf」和今日头条的头条实验室「Xiaomingbot」。
Xiaomingbot并非想取代记者。相反,新闻机器人是记者的助手,可以帮助记者更高效的完成新闻报道工作。头条实验室负责人李磊博士说道。
Xiaomingbot最大的意义在于,面对奥运会这样同时举行上百场比赛的综合赛事,记者很难关注到每一场比赛,而机器人可以任劳任怨的为每一场比赛报道,无论这场比赛多么冷门和不重要。传统新闻理论并不认为这些冷门比赛或者热门比赛(比如乒乓球)的前几轮小组赛有新闻价值,可是通过我们的平台测试,我们发现对冷门场次的报道仍然有可观的阅读量,这个阅读量非常长尾,而新闻机器人可以弥补对这种长尾的新闻需求。
里约奥运会期间,AI机器人「Xiaomingbot」通过对接奥组委的数据库信息,实时撰写新闻稿件,以跟电视直播几乎同时的速度发布稿件。据了解,Xiaomingbot主要报道乒乓球、网球、羽毛球和女足的比赛,在16天内共发布奥运新闻456篇简讯和资讯。
Xiaomingbot是今日头条实验室研发的AI机器人,可以通过两种文本生成技术产出新闻:一是针对数据库中表格数据和知识库生成自然语言的比赛结果报道,即简讯;二是利用体育比赛文字直播精炼合成比赛过程的总结报道,即资讯。
Xiaomingbot到底是什么来头?
Xiaomingbot,是今日头条实验室的研发成果,其「写稿」模块是由头条实验室与北京大学计算所(万小军团队)联合研发而成。
李磊博士正在跟团队的小伙伴改良机器人算法。
这是国内第一款可以报道奥运赛事的人工智能机器人,在结合了最新的自然语言处理、机器学习和视觉图像处理的技术之后,通过语法合成与排序学习生成新闻。头条实验室负责人李磊博士介绍道,Xiaomingbot通过连接数据库实时更新比赛信息,搜集相关选手背景信息,根据比赛规则判断比赛进程,进而生成文本,自动配选图片,最后润色完成报道。机器人可根据比赛的总比分、每节比分情况以及比赛的不同项目、不同状态,生成不同的短讯和长文比赛详情描述。
相比国内第一代写稿机器人——腾讯的 「Dreamwriter」和第一财经的「DT稿王」,Xiaomingbot的写稿技术已经进入第二代写稿水平。与第一代机器人相比 ,Xiaomingbot特征显著:
1. 速度快 数据库数据更新的2秒之内,即可生成新闻稿并完成发布。2秒的时间包含了从生成、提交到头条号「奥运AI小记者Xiaomingbot」发布、通过头条的推荐算法机制分发推荐给用户的整个过程。
2. 样式多 既可以生成长的详细比赛描述总结,也可以生成简明扼要的快讯简报,以前的自动体育新闻只能生成较短的文章。
3. 自适应 根据比赛选手的排名,赛前预测与实际赛果的差异,比分悬殊程度,可以自动调整生成新闻的语气,并使用感情色彩的词语,如实力不俗、笑到了最后等。
4. 自动配图 以前的自动新闻都只能生成文本,通过自动选图技术,Xiaomingbot可以給新闻配图,更加生动形象。
能做到这些,头条实验室给Xiaomingbot的写稿模块使用了3种核心技术:一种是通过概率文法生成文章,也就是说这个机器人生成的句子会有完整语法结构,有主语、谓语、宾语、时间、人物、地点等要素,同时不拘泥于一种形式来描述比赛,会有变化;另一种是通过排序学习算法决定一场比赛新闻描述中需要选择什么样的句子,重要的句子才会在新闻里出现;还有一种是在技术上不算特别难,却非常重要的比赛逻辑判断,可根据每种项目不同的比赛规则来判断比赛的激烈程度和比赛进程如是否结束、是否中间退出比赛等。
据了解,目前在做奥运报道的机器人只有两家——《华盛顿邮报》的「Heliograf」和今日头条的头条实验室「Xiaomingbot」。
Xiaomingbot并非想取代记者。相反,新闻机器人是记者的助手,可以帮助记者更高效的完成新闻报道工作。头条实验室负责人李磊博士说道。
Xiaomingbot最大的意义在于,面对奥运会这样同时举行上百场比赛的综合赛事,记者很难关注到每一场比赛,而机器人可以任劳任怨的为每一场比赛报道,无论这场比赛多么冷门和不重要。传统新闻理论并不认为这些冷门比赛或者热门比赛(比如乒乓球)的前几轮小组赛有新闻价值,可是通过我们的平台测试,我们发现对冷门场次的报道仍然有可观的阅读量,这个阅读量非常长尾,而新闻机器人可以弥补对这种长尾的新闻需求。