隐藏在北语的一座金矿

来源 :大学生 | 被引量 : 0次 | 上传用户:qijisama
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  计算语言学到底研究啥
  北语的计算语言学开设于全校唯一理工科学院信息科学学院(简称信科)。学院副书记李超是学院首届本科学生,作为本硕博都在这儿读的,彻头彻尾的土著,讲起北语信科和计算语言学,他滔滔不绝。
  北语信科的历史有近三十年了,前身是计算机科学与技术系,成立于2000年,再之前,是1987年成立的中国第一个以汉语信息处理为主要研究方向的“语言信息处理研究所”。2014年,北语进行了大部制改革,信科在原有的语言信息处理研究所基础上,成立了另外三个研究所,分别是:大数据与语言教学研究所、语言监测与社会计算研究所(国家语言监测与研究平面媒体中心)和管理科学与工程研究所。几个研究所基本上都与计算语言学学科直接相关,分别对语言的教学、研究和应用开展深入的研究。信科的主要任务是培养外语水平出色,具有信息处理基本素养的
  人工智能大潮滚滚而来,语言信息处理是人工智能中最难突通用人才,在信息领域开展一些前沿性的研究。破和最难解决的核心技术问题之一。“语言智能与技术,是北语在中国语言文学一级
  北京语言大学语言智能与技术(以下称计算语言学),就是学科下,自主设置的二级学科。”李超说,计算语言专门做语言信息处理的。计算语言学是语言学的一个分支,学就是利用计算机对语言进行计算处理,比如要提出
  某个语言现象,若没有语言数据的支持,就不能成为
  利用计算机对语言进行研究。不同于传统的语言学,它是一一个语言规律。而发现规律一般有两种方法:一种基门由语言学、计算机科学和数学三者交叉的新型学科,融合于规则,如语法专家经过研究,发现语言规律;另一了计算机的奥妙、语言学的神秘,还有数学的逻辑,在人工种基于统计,根据大规模数据提炼规则。后一种就是智能的科技大潮中,显示出非凡的生命力和创造力。计算语言学主要做的事。
  在这门融合了计算机科学、语言学和数学的计算语言学中,计算机科学是研究工具,语言学是处理对象,数学是建模工具,此外还会用到物理学等知识。李超进一步解释:“计算语言学,是从字、词、句、篇章、语音等各个维度去研究语言,比如让计算机自动评判一个留学生写汉字写得对不对、好不好,这项技术的核心是数学曲线在二维平面的变换;再比如研究日本人说汉语,计算机可以判断他们说得对不对、准不准,这项技术就利用了物理学中的声学理论,通过发音的波形进行判断。”计算语言学的应用还有很多,最常见的比如在拼音输入法中,有一项功能是“拼写和语法错误”,一旦判定有错误嫌疑,系统就会用红色波浪线划出。还有让计算机评判一篇论文写得好不好,对不对等。
  资源优势独一无二
  除了北语,国内开展计算语言研究的还有清华大学、北京大学、中国科技大学、哈尔滨工业大学、复旦大学、中国科学院等名校。每所大学的研究各有侧重,比如中国科技大学的科大讯飞主攻语音信息处理,特别是语音识别。语音识别的应用也很多,比如语音输入法,又比如语音考试,“在口语考试中,有一种题型是模仿原声读句子,计算机会给考生自动评分。”传统牛校的计算语言研究规模大,相比之下,北语更像是小团队作战,但在某些领域有得天独厚的优势。
  这优势就是在语言资源方面,尤其是搜集外国人的语言资源上面。李超在写博士论文时,需要收集各国人书写的汉字样本做研究。当时,他的一个师弟在英国读博,也做着相同的研究。师弟采集样本时跑遍了英国,还专门跑去了埃及,可是一年下来,收集的样本规模还不如李超在北语一堂汉语课上收集得多。“在北语,随便推开一间教室的门,20位同学就可能来自20个国家,我只要收集每个人的汉字,就是20个国别样本。”李超自豪地说。目前,约有170多个国家和地区的学生在北语学习,校园里能见到世界各地的人。在北语,研究语言信息处理根本不愁样本,这是其他高校无法比拟的。
  李超的博士论文研究外国人写汉字。在传统教学模式中,老师只能看到留学生写完的汉字,看不到写字过程中的笔画顺序,无法全方位判断写得怎么样。李超研究时用了一种数码笔,“它看起来和普通圆珠笔一样,但书写的时候,能记录书写者书写汉字时的位置、速度、压力等信息,再加上研制的算法,计算机就能告诉留学生写的汉字到底对不对了,如果不对还能指出哪里写得不对,给出修正意见。”
  北语坚持‘专业 外语’的复合型人才培养模式。大一到大四都开设英语课,学院本科生的英语专八考试通过率能达到70%。
  此外,计算语言研究需要的理论知识,北语也有着得天独厚的条件。“全球近300所孔子学院,由北语承办的就有17所。在培养汉语国际教学师资方面,北语是培训汉语国际教学师资的官方机构,对汉语国际教学中的各种教学研究得非常深入。”丰富的学生资源、专业的理论积累,都为北语的计算语言学提供了良好环境。
  专业教学各有特色
  北语计算语言学专业招收本科、硕士和博士。本科时要将基础数学、物理、统计等基础学科学扎实了,这可不简单。在本科生眼里,高等数学、线性代数、离散数学和概率论与数理统计是“四座大山”。李超认为,在计算语言学专业中,数学是基础,所有的语言现象都要对应一个语言模型。什么是语言模型?说得简单点儿就是一个数学公式。攻克了“四座大山”,大三大四的学生就可以选人工智能、自然语言处理等选修课了,还可以参与到学院老师们的研究项目中。本科生直接申请项目或直接参与科学研究,这是北语信科的特色。
  至于硕士和博士,北语的计算语言学专业文理兼收,“我们不挑人,会针对每个人的专业特长、兴趣点对他们的研究方向进行专门定制。”李超说,多数硕士博士是理工科出身,他们会编程,但一般不懂语言学,进来后要补修《语言学概论》等语言学基础课程。文科背景的研究生则要补数学和计算机课程,但这没有想象中那么痛苦,“甚至有几位文科研究生经过一段时间的学习,成了编程大拿。”
  北语计算语言学强调动手能力,本科生、硕士生和博士生有时会参加同一个研究课题,但是对他们的要求是不同的:本科生做的是基础工作;研究生则是解决课题中的一两个具体问题;对于博士生,则必须有三五个完整的创新点,并以此为基础完成博士论文,这是毕业的硬性要求。   去向好,招生难
  谈起同学们的毕业去向,李超精神一振:“北语坚持‘专业 外语’的复合型人才培养模式。信科大一到大四都开设英语课,学院本科生的英语专八考试通过率能达到70%。”选择就业的本科生和研究生,除了去外交部、新华社等国家级机构,以及中国银行、工商银行等金融单位从事信息技术相关工作外,还有不少毕业生在IBM、微软、Google、百度、阿里巴巴、腾讯、新浪等从事软件开发、信息管理、技术服务工作。
  因为做的都是前沿研究,有意深造的同学去向也不错,每年都有50%左右的本科毕业生赴国内外名校读研,如清华、北大、北航、北邮、牛津大学、斯坦福、帝国理工、加州伯克利、哥伦比亚、宾夕法尼亚、卡耐基·梅隆、东京大学等。想读博也不难,张劲松教授门下四位2015届研究生,一个去了日本京都大学,一个去了美国伊利诺伊大学厄巴纳 -香槟分校分校,一个去了澳大利亚麦考利大学,还有一个去了德国德累斯顿工业大学,都拿了全额奖学金。还有一个研究前后鼻韵母的2016届研究生,联系了西澳大利亚大学的一个大牛级教授,两封信就谈妥了读博事宜。如今,每年都有外国高校请北语计算语言学的教授推荐博士生候选人。
  “2012年,北语邀请第三方机构调查了校友满意度,各院系中信科校友满意度排名第一。”李超自豪地说。不过校友满意度第一也可能是由于一个令人哭笑不得的原因:没来信科之前,不少同学对北语的唯一理工科学院不了解甚至有怨气,来了后却发现真的很棒,不虚此行。
  毕业不愁出路的计算语言学,招生时却让学院操碎了心。考研时第一志愿填报北语计算语言学的,只要能过国家分数线就能被录取。但每年招的30名硕士研究生,还是有近一半要靠调剂。2015年,计算语言学收到了100多个调剂申请,最后调剂生的平均分数比第一志愿录取的还要高。
  采访手记:
  这一次为报道北语计算语言学,记者们采访了八位老师和学生。自豪和无奈,是每一位被采访者都流露出的情感。他们自豪于自己的前沿研究,自豪于自己灵活的本硕博培养方案,自豪于学生的就业去向,自豪于毕业生对学院的真心热爱。但是,也无奈于本科招不满,研究生靠调剂的局面。正如李超所坚信的,是金子的终会发光。而北语计算语言学,不仅是金子,还是一座蕴藏着金子的金矿。
  探索前沿,低调耕耘
  采写/本刊记者 尹颖尧 曹晓晨文字整理/陈林芩
  北语计算语言学有一群大牛教师,他们的研究前沿、有趣。记者分别采访了研究语言教学、研究和应用的几位代表教授。
  于东副教授——让计算机“听懂”语言
  主攻语言信息处理的于东老师研究语义计算,即让计算机“听懂”、并且理解人说的话。
  于老师介绍,语义学历经了三代研究。第一代是做生物分类体系般的语词典,通过条目分类囊括所有的词语。第二代是制作知识图谱,如网友自发编辑的百度、维基等百科,每一个词条形成一个小数据库。第三代则将词义抽象表示出来,再通过计算机分析词与词之间千丝万缕的关系。比如“鸡蛋”,可让计算机通过50个数字表示,表面看50个数字毫无关联,但一旦所有的食物都由50个数字表示出来后,计算机就能发现“鸡蛋”和“母鸡”间的联系,并能将它们的关系类比为人类母亲和孩子的关系。
  提取个人中文简历中的信息,也是于老师重点负责的项目之一。对于有百度百科词条的人,他们的信息比较完整,普通人的信息则散落在互联网的各个角落,需要好好寻找。简历中,人们往往会写祖籍、出生地、年龄等信息,于东和学生们将这些信息提取后建模,再在更大的互联网文本中,找与这个人有关的
  用计算机解决语言应信息,比如曾经待过的地方、做过的职位、人物关系用问题,即计算机理等等。之后逐层推导,绘制出一份社交图谱——以一解语言的句法结构和个人为中心,找出与之相关的人及其职位,构成人物语意结构,是当前大关系网络。这个项目2013年启动,仍在进行中。热的人工智能的一个用计算机解决语言应用问题,即让计算机理解方向。语言的句法结构和语意结构,是当前大热的人工智能
  的一个方向。饿了吃饭,脏了洗澡,这是人的常识,但计算机没有这个常识,如何让计算机获取、表示,甚至运算这种常识性知识,仍是研究的一个难点。 2015年,于老师所在的大数据研究所团队加入了国家 “863”计划项目“面向基础教育的知识能力智能测评与类人答题验证系统”,2016年再次申请到国家社科重点项目资助,目标就是以语法、语义结构分析为核心技术,帮助人工智能参加高考,并在高考科目中达到一定水平。
  链接:在知识图谱领域,清华大学和中国科学院都在做相关研究,前者注重在知识图谱基础上的知识推理,而后者关注如何从原始文本中抽取知识图谱。北语计算语言学更多是在积累资源,从文本中挖掘知识,并着手清华和中科院都不怎么关注的常识领域。
  荀恩东教授——写手漂亮的汉字
  信科学院大数据与语言教学研究所所长荀恩东教授的研究,主要包括两个部分。一是用计算机帮助汉语学习。在北语这个拥有不同肤色学生的“小联合国”,很多留学生写汉字如同画画,而且没有笔顺概念。荀教授和同学们研发了帮助留学生写好汉字的手机APP——“易汉字”,以国家规定的笔画笔顺为标准,指导学生写出标准的汉字。这款软件针对的不仅仅是外国人,没机会“练笔”的中国成年人同样是目标对象。
  如今,人们提笔忘字的现象越来越严重,为让人们写得一手好字,荀教授还请来了书法家,采集其书写汉字的过程和成型的字体,让大家在APP上跟着书法家一笔一画地临摹。此外,荀教授还将师生互动从课堂上搬到了移动终端上。课前,他将课上要讲的内容发送至手机等终端,供学生预习,课后,他收集学生练习的结果,作为研究的第一手资料。
  与于东老师一样,荀教授也关注人工智能中的常识问题。此外,他还牵头建立了BCC现代汉语语料库(http://bcc.blcu.edu.cn/),总字数约 150 亿字,包括报刊(20亿字)、文学(30亿字)、微博(30亿字)、科技( 30亿字)、综合( 10亿字)和古汉语(20亿字)等多领域语料,可供检索,服务于教学、舆情等。它是目前国内最大、被使用次数最多的语料库,不论是博士、硕士生写论文,还是老师做语言学研究,都能用到它。   链接:北京语言大学在汉语学习的理论方法领域做得最深入,比如汉语的字、词、句、篇章的分析和处理技术,在国内可比肩清华大学、中国科学院大学、哈尔滨工业大学、和复旦大学等知名院校,也丝毫不比国外逊色。
  荀教授和同学们研发了帮助留学生写好汉字的手机APP——“易汉字”,以国家规定的笔画笔顺为标准,指导学生写出标准的汉字。
  2015年,张教授的团队在日本同学中做测试,参加测试前,日本同学发音的准确率是80%,经过一段时间的训练,准确率达到了90%。
  张劲松教授——改进洋腔洋调
  张劲松教授关注计算机辅助发音教学和实用语音学。经过调研,张教授发现计算机辅助发音的第一代产品,运用的是语音匹配技术,用打分的方式判断发音是否标准,但这对学生改进和提高发音的帮助实在有限。“学生只知道自己发音的水平,却不知道哪儿出了问题。这样的反馈,于教学而言远远不够。”
  怎样才能让学生更好地改进发音呢?
  带着这一目标,张老师把发音分成“三个环节、五个层面”,挨个儿攻克难关。五个层面指音段、声调、语调、语段和韵律。“三个环节”的第一个环节是产出环节。张老师发现,将汉语作为第二语言学习,不同国家的学生有着不同程度的“洋腔洋调”。比如日本人分不清l、r和zhi、chi、shi,送气也不足。此外,日本人讲中文时,也许每个音调都正确,但他们不明白汉语的韵律、节奏,连起来说时句子听起来十分生硬。第二个环节是知觉层面,这个层面常见的问题是在教学过程中,老师讲的东西同学能理解多少,老师不能确定,如“妈”和“马”,有的同学听起来完全一样。第三个层面是交际层面,这个层面也有一些容易产生的问题,比如,中国人与外国人聊天时,为了让对话顺利进行下去,有时会选择性忽略外国人说中文时的错误,这样一来,外国人就认为自己的错误表达是正确的,这是加深印象或巩固错误的陷阱。
  随后,张教授带领同学们有针对性地解决这些问题。在知觉环节,针对日本学生阳平上声不分的问题,团队利用物理参数合成音高区间,并划分了十个次级,“对母语是汉语者来说,听 1~4 级时, 100%的人都表示听到的是阳平;听 7~10级时, 100%听到的都是上声;而听 5或6级时,他们也会拿不准。”团队把中国人听1~10次级的情况告诉日本同学,并针对他们的薄弱环节进行针对性的训练。 2015年,张教授的团队在日本同学中做测试,参加测试前,日本同学发音的准确率是 80%,经过一段时间的训练,准确率达到了 90%。
  链接:在计算机辅助发音教学领域,美国佐治亚理工学院、香港中文大学、新加坡A*STAR(Agency for Science,Technology andReseach)研究所、日本京都大学等都有相关研究。由于北语开展得比较早,目前在国内外都处于前沿地位,研究成果在领域内也极受重视。
其他文献
如今,大学里出国(境)的交换项目越来越丰富,  不过,参加交换项目的同学若没在交换前后仔细研究过学校的相关政策,  心大一时,就很可能少花十分钟,后悔一整年!  笑早了  我是在大二的下半学期出国交换的,同批参加项目的同学都把准备的重点落在了出国半年里的安排,关心的是衣食住行问题。大家没有看学校政策的意识和习惯,一心觉得有重要的事情学校就会发消息,自己不用着急。  作为班上的学习委员,我对于学校的
第一天,我早早就到公司。面试我的人就是我的顶头上司,也是公司的大 boss——Alan。 Alan还没来,同事和我照个面就忙自己的事情了。办公室里很安静,只有键盘敲击的声音,我不觉屏着呼吸,好奇地打量着周围。  Alan终于来了。他把我叫到办公室,感觉他比面试时严肃了好多。“公关的基本功是文案,你把这条微博发了,先给我看一眼,不懂就问。”  我回到座位上,想着:不就是一条微博嘛,这简单。他传给我一
一进一层大厅,记者便看见 “辨证据真伪,铸法治基石”几个庄严肃穆的词汇。转个弯,正义之神忒弥斯的洁白雕像映入我们眼帘,她身高数米,手拿利剑,眼蒙黑布,神圣感满满。  在副所长郭兆明老师带领下,我们先参观了二楼的法医学部的法医病理学室、法医临床学室、法医生物学室和法医精神心理学室。推门进去,一间间并不算大的检查室里置放着各种各样的仪器,有眼科裂隙灯、多焦视觉诱发电位仪、中耳分析仪、自动视野检测仪、多
这是一座西部边疆的美丽小城,被誉为“戈壁明珠”。诗人艾青曾赞美道:“我到过很多地方,数这个城市最年轻,她是这样漂亮,令人一见倾心,不是瀚海蜃楼,不是蓬莱仙境,她的一草一木,都是血汗凝成。”  新疆戈壁滩  有意思的是,这座城市却几乎无法和国内的任何一座知名城市相提并论,随便一个二三线城市的自然环境、历史积淀、人口数量和经济总量都远远超过了她,更不要说北京、上海和广州这些国际名城了——因为她太年轻,
今年7月,美国的一则新闻又把特朗普政府推到了一个风口浪尖上。  来自美国18个州及哥伦比亚特区的民主党检察官联合起来,状告联邦教育部长Betsy Devos。  事情的起因是Devos暂缓实行奥巴马政府时期制定的旨在保护学生的对牟利大学的监管规定。  在这项暂缓的规定中,政府允许持有学生贷款的学生在证实被营利性大学欺骗时,可以有机会申请豁免助学贷款。他们在起诉书中写到,Devos的这项决定是“背叛
博物馆主要展出矿物、岩石、古生物化石等地质标本,其藏品乃是几代地质学者、本校师生自上个世纪以来在各种艰苦的野外环境中采集、积累起来的,也包括了校友及国际友人等馈赠的标本、以及部分购置的标本。现馆藏标本总量60000余件,其中公开展出4500余件。藏品除了采自国内各地之外,还有来自世界40多个国家和地区的标本。  博物馆展厅面积约为2400平方米,分为地球科学厅、恐龙厅、地球与生命演化历史厅和地球物
按功能分,可以有:  (以下分类并非100%重合,是依据主要活动内容做的最近归属):  1.理论研究:清华创研、创客教育实验室  2.学习实践:启创班、清华创业者、基础工业训练中心  3.创业社区:创 、创客空间协会、未来企业家协会(GCEO)  4.创业赛事:创业协会、高校创业者联盟  5.创业指导:导师团、学生职业发展指导中心  6.创业融资:水木清华校友种子基金  7.综合平台:x-lab 
《大学生》:目前,高校都在开展创新创业教育,浙大的创业和创新创业教育情况如何?  邬小撑:我先说一组数字。据统计,2014年6月份以来,浙大从0到1孵化的学生创业团队,累计有40余个团队获得了市场投资,总金额达10亿多人民币,仅2017年融资金额达5亿。近年来,校园里涌现的自主创业团队有200多个。2016年,国际知名创业发展报告PitchBook发布了2006年1月~2016年8月独角兽创始人本
刘一霖是南京大学新闻传播学院的本科生。在这个暑假,她来到央视《开讲啦》节目组实习。“我本以为央视制作节目会因循守旧,但那些在网络上风靡的综艺节目同事们都看过,还总会想着哪些好的点子可以借鉴,每每开会大家都会因观点交锋而争得面红耳赤。虽然工作难度不小,强度很大,但总之,感觉还不错。”  三个问题迈进门槛  在一个偶然的机会中,刘一霖结识了节目组的制片人老师,当她表达自己想去节目组实习的意愿后,制片人
张军正:请讲讲您参加高考的情况。  余跃庆:我是北京人,考前是知青,在北京昌平插队。插队不到两年,时间不长,但是整天干活,也不知道能不能回城,不知道以后能干什么。得知恢复高考的消息很高兴,赶紧积极准备考试。  高考确实能改变命运。  当时认为至少可以回城了。讲一个北京知青渴望回城的小插曲:北京工业大学是市属高校,大学毕业包分配,这就意味着毕业后肯定会留在北京工作。虽然清华大学更知名,但是清华毕业生