论文部分内容阅读
摘 要:本文主要探讨建立一个具备采集、比对、分析功能的全国方音云端数据库和自动识别平台的可行性,该平台既可实现对全国各地方言方音的系统化采集,又可智能、直观服务于侦查部门的办案需要,更重要的是,填补了国内甚至国际方音云采集、地域自动识别系统的空白。
关键词:云端数据库;方言;语音识别;系统平台
中国是一个方言众多、方音复杂的国家,即便是一个专业的言语识别专家,也难以做到通晓全国方言。在科学技术发达的今天,树立“云”理念建立“全国一片云”的方音自动识别平台,在侦查办案中“听音识地”已成为可能。
一、建立全国方音自动识别平台有需求
中国现代汉语方言按照通俗的分法,可分为官话方言(或称北方方言)、吴方言、湘方言、客家方言、闽方言、粤方言、赣方言七大方言。大方言再分为方言片(也叫次方言),如官话方言内部按其语言特点一般可以分为8个次方言:东北官话、北京官话、冀鲁官话(齐赵官话)、登辽官话、中原官话、兰银官话、西南官话和江淮官话。复杂一些的方言还可能再分为方言小片、甚至再细分到方言点,如闽方言还可分为闽东区、闽南区、闽北区、闽中区、莆仙区、邵将区和琼文区7个区,闽南区又可再分为泉漳、大田、潮汕、雷州4个片。一些地方比如潮汕地区,甚至同一个方言点相邻的两个村之间说话都会有差异。有经验的言语识别专家或者熟知某个地区方言特点的人,从某一二个特殊的字的发音,就可以知道说话的人是哪里人。
但是面对这样纷繁复杂的各地方言,任何人想掌握所有或者大部分方言的特点、特征都是很难的,一方面目前还没有收集、归纳出系统、完整、权威的资料;另一方面凭借个人或几个人短期内收集、归纳遍布全国的这么多方言的特点、规律,工作量、工作难度相当大。这就造成了方言识别在侦查办案中只能是先请教专家划出大而泛之的地域范围,然后视案件具体情况再临时请教方言地的群众。这样的办案方式时间久、效率低、准确性差,过后的总结也只能体现个别方言点的极少部分特点,且难以与同行共享。在目前方音自动识别系统缺乏的情况下,建立一个全国公安侦查部门甚至方言研究机构共享的平台已经迫在眉睫[1]。
二、建立全国方音自动识别平台有可能
(1)环境上已具备
目前我国互联网已经相当普及,智能手机应用广泛。据国家统计局公布数据显示,2017年我国互联网普及率达到55.8%,互联网上网人数7.72亿人,其中手机上网7.53亿人。公安机关内部网、互联网都已经延伸到基层单位,即使没有人手一部电脑,一个单位一部电脑也是有的。这样的网络时代、手机时代,让建立全国方音“云”平台具备了环境条件。
(2)技术上已成熟
一方面,“云”理念正成为各行各业的最新运营模式。通过网络服务器建立一个全国方音的云端数据库,大流量传送语音流已毫无问题。另一方面,通过电脑或手机麦克风采集人类语音并转换为计算机可读的文字输入,这种技术目前也已经相当成熟。通过基于语音学和声学的方法,对输入的语音与内置国际音标发音模板的匹配,从而与库中文字(单字或词、词组)的发音进行相似度的比对,这种声、韵、调识别功能在智能手机的语音输入、语音拨号、语音检索上,也已经日臻完善,识别度不断提高。目前国外的IBM、谷歌,国内的百度、腾讯云、普强、灵犀、科大讯飞、阿里巴巴、云知声、捷通华声、思必驰等公司这方面技术都比较成熟,而且各有特色,购买或借助他们的技术程序段,植入平台程序中进行调试磨合即可。当然还需要根据我们的需求进行一定的改进。
(3)采集上可解决
一个平台,没有海量的数据是难以支撑其正常运作的。我们有200多万民警遍布全国各地,可以说,有方言的地方就有民警,就有刑警。作为警察,现在基本都用上了智能手机,不少地方也已经配发了双系统的移动警务终端。民警可以通过智能手机APP、互联网电脑登录方音自动识别平台,把自己熟练掌握的家乡方言方音录入平台,做到全国民警都是“方音采集员”,有效解决方音采集的问题。
(4)功能上可拓展
除了语音输入简单快捷外,在结果的显现上还可以借助现有的地图平台、大数据分析、模糊计算等功能,将方音自动识别系统拓展出更多更智能的功能,甚至可以应用于民族语言、外国语言和非语言分析,研究、应用前景相当广泛[2]。
三、建立全国方音自动识别平台有内涵
全国方音自动识别平台最主要是语音采集和语音识别二大模块,其它还有采集者和被采集者身份确认、后期维护、功能拓展接口等。最核心的技术是语音识别技术,其它还有识别比中的地点在地图上的矢量化显示、数据库安全及备份等等。
(1)身份确认模块
一個是采集员的帐号登录,另一个是被采集人的状态描述。
采集员对于本平台来说,多是公安民警或是从事方言语音研究的人员,设置采集员帐号,主要是方便其对本人采集内容的整理、维护、注释,并从方言点、片的层面,逐步填充、完善方音的采集,同时还可统计所采集内容的被应用情况,接受各使用单位对其采集内容使用结果的反馈等。
被采集人的状态描述,主要是对所采集的每一个方音发音标明发音者的年龄、性别、职业、方言点、社会背景等,有助于大数据分析和办案、方言研究的参考。如某个方言点的方音采集,既要考虑被采集人的年龄层,又要考虑其人生阅历;太过年轻的被采集人,方言发音不能完全体现方言点的特点,而人生阅历丰富、社会背景复杂、活动范围广的被采集人,其方言发音又会受环境的影响而夹杂其它方言的元素。这些都是在办案和研究中必须考虑的问题。
(2)采集模块
方音采集是方音识别的前提,没有采集相当数量的方音特征并建成库,方音识别只能是空中楼阁。
①单字读音采集
系统逐一显示汉语3000个常用字,由采集员指导被采集人按本地方言点的发音逐个录入读音并回放确认,后以音频和转换为国际音标二种形式保存。方音的采集,对环境的要求比较严格,最好是静音环境,最大限度减少噪音的干扰。完成3000个常用字后,如有时间,可以扩大到5000个常用字和非常用字的读音采集录入。 ②词组读音采集
系统逐一显示汉语3000个常用词,由采集员指导被采集人按本地方言点的发音,逐个录入每个词的读音并回放确认,后以音频和转换为国际音标二种形式保存。如有时间,可以扩大到非常用词组的采集录入。在对词和词组的读音采集后,还可以分析归纳出这个方言点的词组连读变调规律。
③特殊词语采集
主要是对被采集人所在方言点的俗语、俚语、方言词进行采集。这个除了要采集词的发音,还要录入特殊词的词义,有可能的话,还要描述形成这个方言词的历史原因。每种方言在不同方言点经历不同的发展变化,都会形成独具特色的俗语、俚语、方言词,有时往往一个俗语、俚语、方言词,就能判断出发音人源自哪个方言點。
④生活习俗采集
这个属于拓展功能,非语音识别范畴,但有助于侦查办案和方言研究。一些方言地,都有其独特的民俗活动,比如潮州市湘桥区磷溪镇溪口村每年正月十九的“钻蔗巷”,估计全国就这一个地方有这个民俗。这与方言方音无关,但如果案件中涉及到这个内容,案犯就肯定与溪口村有过一定的交集。通过这个平台收集这些民俗活动,对办案和方言研究有一定的帮助。
(3)语音建库
利用语音识别技术对字词读音进行建库是方音识别的关键。建库是识别系统对采集的字、词读音采用语音识别技术的标准进行特征描述,分别按方言点、声、韵、调、连读音变规律以及其它外围参考指数如被采集人的各项状态特征等为字段,在云端服务器建立数据库。由于其间含有大量的音频,所以这个数据库是比较庞大的。但音频文件又不能舍弃,字、词的读音音频文件,可以随时印证输入字词的国际音标,而且可以直观、方便地提供给不熟悉国际音标的办案人员。
(4)识别比对模块
方音识别是平台应用的核心,不论是用于破案,还是用于方言研究。
①输入
对读音的识别可以采取多种输入方式:
一是电脑或手机的麦克风输入。即让嫌疑人当场朗读念出平台显示出来的一定数量的常用字、词,这个适合嫌疑人已经被抓获的情况。
二是播放音(视)频文件+输入文字的方式。这种情况是嫌疑人未被抓获或未达抓捕条件,只提取到其声音,并知道他所说的是什么。这种方式还需要对音频进行逐字撷取,每个字的发音从哪里开始到哪里结束,毕竟这种录音一般比较吵杂,会有很多现场音,通过撷取单字发音,能尽量减少现场声音的干扰。
三是国际音标输入。这需要输入人员具有一定的国际音标知识。这种情况适合于办案人员靠大脑记住嫌疑人对某个字、词、句的发音,事后在平台上逐字逐词录入。
②识别比对
这里的识别比对,即把新输入的字词语音特征(检材)与库中无数方言点的该字词语音特征(样本)进行比对,找出相似度最高的方言点坐标清单,在地图上显示出来。这种比对只要识别核心技术对语音特征描述的标准一致,录入操作员不出差错,比对效果应该还是比较好的。
一是单字读音比对比较简单,按照先声母后韵母再音调的顺序,给出相似度最高的方言点或向地图传输该方言点的地理坐标即可。
二是词组读音的识别比对,除了对每个单字的读音进行比对以外,还要对单字组词之后的连读音变(含变声、变韵、变调、轻化等)进行比对。但这种音变的重要性,要排列在声、韵、调之后。
三是特殊语义识别和生活习俗的比对,由于都是文本形式录入的,这二项可以采用全文模糊查询的方式,对字、词或词义进行检索,再从中寻找想要的线索。
③显示
识别后要对得到的方言点进行地图显示,这里不仅包含对字、词识别出来的方言点,对特殊语义和生活习俗都可以复选进行合并显示。
地图显示是本平台的亮点,能够直观标识出方音识别出来后方言点的地域分布态势。因为嫌疑人在读出指定单字、词组后,系统对每个字词的识别,符合特征的会有多个地区,在筛除一些普遍特征后,对这些字词的方音特征通过逻辑运算“与”求出交集后符合的地域,并以高亮显示。对高亮点集中的地区,还可以用热力图显示。由于系统使用的是谷歌、百度等矢量地图,办案人员可以对局部地区放大显示到方言点,这就大大方便了侦查破案工作[3]。
(5)拓展模块
①采集员培训区
原则上采集员应有专业资质或受过专业培训,以保证方音采集的准确性和质量。作为平台的建设方,可以适时举办培训班,邀请方言专业人士传授方音采集知识,总结采集和应用的经验,接受平台建设改进建议。同时可以将培训内容录成视频放在平台上,供采集员学习之用,提高采集水平。还可以设立咨询客服,及时解答采集员的问题。
②江湖英雄榜
这里主要是采集员的成绩及排行。对采集员的激励机制,可以采用体现采集量的积分等级制和体现对侦查破案帮助程度的勋章制二个体系。完成一个方言点所有常用字、常用词的采集,提升一个级别,而且级别数是无上限的;每在一个案件的侦破中发挥关键作用,奖励一枚勋章,勋章数也是无限的。
③语音库维护
主要是对方言点在地图上地理位置的修改、对方音及习俗的纠错,以及数据库的安全及备份等等。为避免混乱,对方言片、小片、点的划分,采用字典式录入,这些字典词必须由系统管理员后台录入,并赋予地图矢量坐标。
④留言区
提供给采集员之间进行互相交流探讨,以及向平台管理员提出建设、改进平台的意见建议,或者发布涉及方言方面的悬赏通缉等[4]。
四、建立全国方音自动识别平台有前景
(1)侦查破案
这是建设这个平台的首要目的。平台一旦建立,即可实现全国方音大汇集,每一个常用字、词在每一个方言点的发音都可以查到,侦查民警在办案中一涉及到方音问题就能求助这个平台,要么将案件中提取的发音检材上传比对,要么将未知籍贯的犯罪嫌疑人进行录音采集,等于是增加了一个侦查手段,甚至可以直接认定嫌疑人的主要活动地。 (2)方言体系及发展研究
由于平台汇集了几乎全国所有方言点常用字词的发音和变音,大大方便了方言研究人员对某种甚至各种方言的研究,特别是对方言的发展、变迁、融合、影响等历史变迁的挖掘,都将起到不可估量的作用。这也大大减少了研究人员采集样品的时间,将主要精力集中到分析研究上,提高了效率。
(3)方言保护
在现今“地球村”时代,网络的高度发达,人员的大流动,加速了各地方言的大融合,也加速了地方小方言的消亡。但是,方言是地域文化的载体,是地区文化特色的表现,也是民族传统文化的活化石和宝贵文化遗产。一种方言的消亡,一个方言点的被融合,都意味着一系列的民俗文化被吞噬。保护方言意义重大而深远。著名语言学家周海中教授认为:语言是人类文化的载体和重要组成部分。每种语言都能表达出使用者所在民族的世界观、思维方式、社会特性以及文化、历史等,都是人类珍贵的无形遗产。当一种语言消失后,与之对应的整个文明也会消失。当今处于弱势的民族语言正面临着强势语言、全球化、互联网等的冲击,正处于逐渐消失的危险之中。语言如此,方言亦是如此。作为语言研究人员,应该采取积极而有效的措施,抢救濒危方言,保护弱势方言,如此才能传承地域文化,营造多姿多彩的民族文化氛围,促进社会安定。
而方音自动识别平台采用的是云端储存,除了发生全球性大灾难,否则各种方言的方音特征將会长久保存,这对我国这个方言大国将具有深远的历史意义,对全球性语言文化的存续与发展也是一个很好的借鉴。
参考文献
[1]王自万.刑事案件侦查中的方言识别技术[J/OL].北京警察学院学报:1-7[2018-08-16].https://doi.org/10.16478/j.cnki.jbjpc.20180703.001.
[2]欧阳国亮,李志芳.方言识别在侦查应用中面临的问题及对策[J].山西警察学院学报,2017,25(01):51-54.
[3]张颖,王钢,安然.方言语料数据库管理系统设计[J].新乡学院学报(自然科学版),2008,25(03):57-58.
[4]赵文.社会方言及其在案件言语识别中的应用[J].湖南公安高等专科学校学报,2002(01):93-95.
作者简介:
刘晓峰(1970.10--),男,广东省潮州人,本科学历,毕业于中国刑事警察学院,中级工程师,文件检验,
吴粤野(1987.07--),男,广东省潮州人,本科学历,毕业于广东警官学院,助理工程师,文件检验,
(作者单位:广东省潮州市公安局)
关键词:云端数据库;方言;语音识别;系统平台
中国是一个方言众多、方音复杂的国家,即便是一个专业的言语识别专家,也难以做到通晓全国方言。在科学技术发达的今天,树立“云”理念建立“全国一片云”的方音自动识别平台,在侦查办案中“听音识地”已成为可能。
一、建立全国方音自动识别平台有需求
中国现代汉语方言按照通俗的分法,可分为官话方言(或称北方方言)、吴方言、湘方言、客家方言、闽方言、粤方言、赣方言七大方言。大方言再分为方言片(也叫次方言),如官话方言内部按其语言特点一般可以分为8个次方言:东北官话、北京官话、冀鲁官话(齐赵官话)、登辽官话、中原官话、兰银官话、西南官话和江淮官话。复杂一些的方言还可能再分为方言小片、甚至再细分到方言点,如闽方言还可分为闽东区、闽南区、闽北区、闽中区、莆仙区、邵将区和琼文区7个区,闽南区又可再分为泉漳、大田、潮汕、雷州4个片。一些地方比如潮汕地区,甚至同一个方言点相邻的两个村之间说话都会有差异。有经验的言语识别专家或者熟知某个地区方言特点的人,从某一二个特殊的字的发音,就可以知道说话的人是哪里人。
但是面对这样纷繁复杂的各地方言,任何人想掌握所有或者大部分方言的特点、特征都是很难的,一方面目前还没有收集、归纳出系统、完整、权威的资料;另一方面凭借个人或几个人短期内收集、归纳遍布全国的这么多方言的特点、规律,工作量、工作难度相当大。这就造成了方言识别在侦查办案中只能是先请教专家划出大而泛之的地域范围,然后视案件具体情况再临时请教方言地的群众。这样的办案方式时间久、效率低、准确性差,过后的总结也只能体现个别方言点的极少部分特点,且难以与同行共享。在目前方音自动识别系统缺乏的情况下,建立一个全国公安侦查部门甚至方言研究机构共享的平台已经迫在眉睫[1]。
二、建立全国方音自动识别平台有可能
(1)环境上已具备
目前我国互联网已经相当普及,智能手机应用广泛。据国家统计局公布数据显示,2017年我国互联网普及率达到55.8%,互联网上网人数7.72亿人,其中手机上网7.53亿人。公安机关内部网、互联网都已经延伸到基层单位,即使没有人手一部电脑,一个单位一部电脑也是有的。这样的网络时代、手机时代,让建立全国方音“云”平台具备了环境条件。
(2)技术上已成熟
一方面,“云”理念正成为各行各业的最新运营模式。通过网络服务器建立一个全国方音的云端数据库,大流量传送语音流已毫无问题。另一方面,通过电脑或手机麦克风采集人类语音并转换为计算机可读的文字输入,这种技术目前也已经相当成熟。通过基于语音学和声学的方法,对输入的语音与内置国际音标发音模板的匹配,从而与库中文字(单字或词、词组)的发音进行相似度的比对,这种声、韵、调识别功能在智能手机的语音输入、语音拨号、语音检索上,也已经日臻完善,识别度不断提高。目前国外的IBM、谷歌,国内的百度、腾讯云、普强、灵犀、科大讯飞、阿里巴巴、云知声、捷通华声、思必驰等公司这方面技术都比较成熟,而且各有特色,购买或借助他们的技术程序段,植入平台程序中进行调试磨合即可。当然还需要根据我们的需求进行一定的改进。
(3)采集上可解决
一个平台,没有海量的数据是难以支撑其正常运作的。我们有200多万民警遍布全国各地,可以说,有方言的地方就有民警,就有刑警。作为警察,现在基本都用上了智能手机,不少地方也已经配发了双系统的移动警务终端。民警可以通过智能手机APP、互联网电脑登录方音自动识别平台,把自己熟练掌握的家乡方言方音录入平台,做到全国民警都是“方音采集员”,有效解决方音采集的问题。
(4)功能上可拓展
除了语音输入简单快捷外,在结果的显现上还可以借助现有的地图平台、大数据分析、模糊计算等功能,将方音自动识别系统拓展出更多更智能的功能,甚至可以应用于民族语言、外国语言和非语言分析,研究、应用前景相当广泛[2]。
三、建立全国方音自动识别平台有内涵
全国方音自动识别平台最主要是语音采集和语音识别二大模块,其它还有采集者和被采集者身份确认、后期维护、功能拓展接口等。最核心的技术是语音识别技术,其它还有识别比中的地点在地图上的矢量化显示、数据库安全及备份等等。
(1)身份确认模块
一個是采集员的帐号登录,另一个是被采集人的状态描述。
采集员对于本平台来说,多是公安民警或是从事方言语音研究的人员,设置采集员帐号,主要是方便其对本人采集内容的整理、维护、注释,并从方言点、片的层面,逐步填充、完善方音的采集,同时还可统计所采集内容的被应用情况,接受各使用单位对其采集内容使用结果的反馈等。
被采集人的状态描述,主要是对所采集的每一个方音发音标明发音者的年龄、性别、职业、方言点、社会背景等,有助于大数据分析和办案、方言研究的参考。如某个方言点的方音采集,既要考虑被采集人的年龄层,又要考虑其人生阅历;太过年轻的被采集人,方言发音不能完全体现方言点的特点,而人生阅历丰富、社会背景复杂、活动范围广的被采集人,其方言发音又会受环境的影响而夹杂其它方言的元素。这些都是在办案和研究中必须考虑的问题。
(2)采集模块
方音采集是方音识别的前提,没有采集相当数量的方音特征并建成库,方音识别只能是空中楼阁。
①单字读音采集
系统逐一显示汉语3000个常用字,由采集员指导被采集人按本地方言点的发音逐个录入读音并回放确认,后以音频和转换为国际音标二种形式保存。方音的采集,对环境的要求比较严格,最好是静音环境,最大限度减少噪音的干扰。完成3000个常用字后,如有时间,可以扩大到5000个常用字和非常用字的读音采集录入。 ②词组读音采集
系统逐一显示汉语3000个常用词,由采集员指导被采集人按本地方言点的发音,逐个录入每个词的读音并回放确认,后以音频和转换为国际音标二种形式保存。如有时间,可以扩大到非常用词组的采集录入。在对词和词组的读音采集后,还可以分析归纳出这个方言点的词组连读变调规律。
③特殊词语采集
主要是对被采集人所在方言点的俗语、俚语、方言词进行采集。这个除了要采集词的发音,还要录入特殊词的词义,有可能的话,还要描述形成这个方言词的历史原因。每种方言在不同方言点经历不同的发展变化,都会形成独具特色的俗语、俚语、方言词,有时往往一个俗语、俚语、方言词,就能判断出发音人源自哪个方言點。
④生活习俗采集
这个属于拓展功能,非语音识别范畴,但有助于侦查办案和方言研究。一些方言地,都有其独特的民俗活动,比如潮州市湘桥区磷溪镇溪口村每年正月十九的“钻蔗巷”,估计全国就这一个地方有这个民俗。这与方言方音无关,但如果案件中涉及到这个内容,案犯就肯定与溪口村有过一定的交集。通过这个平台收集这些民俗活动,对办案和方言研究有一定的帮助。
(3)语音建库
利用语音识别技术对字词读音进行建库是方音识别的关键。建库是识别系统对采集的字、词读音采用语音识别技术的标准进行特征描述,分别按方言点、声、韵、调、连读音变规律以及其它外围参考指数如被采集人的各项状态特征等为字段,在云端服务器建立数据库。由于其间含有大量的音频,所以这个数据库是比较庞大的。但音频文件又不能舍弃,字、词的读音音频文件,可以随时印证输入字词的国际音标,而且可以直观、方便地提供给不熟悉国际音标的办案人员。
(4)识别比对模块
方音识别是平台应用的核心,不论是用于破案,还是用于方言研究。
①输入
对读音的识别可以采取多种输入方式:
一是电脑或手机的麦克风输入。即让嫌疑人当场朗读念出平台显示出来的一定数量的常用字、词,这个适合嫌疑人已经被抓获的情况。
二是播放音(视)频文件+输入文字的方式。这种情况是嫌疑人未被抓获或未达抓捕条件,只提取到其声音,并知道他所说的是什么。这种方式还需要对音频进行逐字撷取,每个字的发音从哪里开始到哪里结束,毕竟这种录音一般比较吵杂,会有很多现场音,通过撷取单字发音,能尽量减少现场声音的干扰。
三是国际音标输入。这需要输入人员具有一定的国际音标知识。这种情况适合于办案人员靠大脑记住嫌疑人对某个字、词、句的发音,事后在平台上逐字逐词录入。
②识别比对
这里的识别比对,即把新输入的字词语音特征(检材)与库中无数方言点的该字词语音特征(样本)进行比对,找出相似度最高的方言点坐标清单,在地图上显示出来。这种比对只要识别核心技术对语音特征描述的标准一致,录入操作员不出差错,比对效果应该还是比较好的。
一是单字读音比对比较简单,按照先声母后韵母再音调的顺序,给出相似度最高的方言点或向地图传输该方言点的地理坐标即可。
二是词组读音的识别比对,除了对每个单字的读音进行比对以外,还要对单字组词之后的连读音变(含变声、变韵、变调、轻化等)进行比对。但这种音变的重要性,要排列在声、韵、调之后。
三是特殊语义识别和生活习俗的比对,由于都是文本形式录入的,这二项可以采用全文模糊查询的方式,对字、词或词义进行检索,再从中寻找想要的线索。
③显示
识别后要对得到的方言点进行地图显示,这里不仅包含对字、词识别出来的方言点,对特殊语义和生活习俗都可以复选进行合并显示。
地图显示是本平台的亮点,能够直观标识出方音识别出来后方言点的地域分布态势。因为嫌疑人在读出指定单字、词组后,系统对每个字词的识别,符合特征的会有多个地区,在筛除一些普遍特征后,对这些字词的方音特征通过逻辑运算“与”求出交集后符合的地域,并以高亮显示。对高亮点集中的地区,还可以用热力图显示。由于系统使用的是谷歌、百度等矢量地图,办案人员可以对局部地区放大显示到方言点,这就大大方便了侦查破案工作[3]。
(5)拓展模块
①采集员培训区
原则上采集员应有专业资质或受过专业培训,以保证方音采集的准确性和质量。作为平台的建设方,可以适时举办培训班,邀请方言专业人士传授方音采集知识,总结采集和应用的经验,接受平台建设改进建议。同时可以将培训内容录成视频放在平台上,供采集员学习之用,提高采集水平。还可以设立咨询客服,及时解答采集员的问题。
②江湖英雄榜
这里主要是采集员的成绩及排行。对采集员的激励机制,可以采用体现采集量的积分等级制和体现对侦查破案帮助程度的勋章制二个体系。完成一个方言点所有常用字、常用词的采集,提升一个级别,而且级别数是无上限的;每在一个案件的侦破中发挥关键作用,奖励一枚勋章,勋章数也是无限的。
③语音库维护
主要是对方言点在地图上地理位置的修改、对方音及习俗的纠错,以及数据库的安全及备份等等。为避免混乱,对方言片、小片、点的划分,采用字典式录入,这些字典词必须由系统管理员后台录入,并赋予地图矢量坐标。
④留言区
提供给采集员之间进行互相交流探讨,以及向平台管理员提出建设、改进平台的意见建议,或者发布涉及方言方面的悬赏通缉等[4]。
四、建立全国方音自动识别平台有前景
(1)侦查破案
这是建设这个平台的首要目的。平台一旦建立,即可实现全国方音大汇集,每一个常用字、词在每一个方言点的发音都可以查到,侦查民警在办案中一涉及到方音问题就能求助这个平台,要么将案件中提取的发音检材上传比对,要么将未知籍贯的犯罪嫌疑人进行录音采集,等于是增加了一个侦查手段,甚至可以直接认定嫌疑人的主要活动地。 (2)方言体系及发展研究
由于平台汇集了几乎全国所有方言点常用字词的发音和变音,大大方便了方言研究人员对某种甚至各种方言的研究,特别是对方言的发展、变迁、融合、影响等历史变迁的挖掘,都将起到不可估量的作用。这也大大减少了研究人员采集样品的时间,将主要精力集中到分析研究上,提高了效率。
(3)方言保护
在现今“地球村”时代,网络的高度发达,人员的大流动,加速了各地方言的大融合,也加速了地方小方言的消亡。但是,方言是地域文化的载体,是地区文化特色的表现,也是民族传统文化的活化石和宝贵文化遗产。一种方言的消亡,一个方言点的被融合,都意味着一系列的民俗文化被吞噬。保护方言意义重大而深远。著名语言学家周海中教授认为:语言是人类文化的载体和重要组成部分。每种语言都能表达出使用者所在民族的世界观、思维方式、社会特性以及文化、历史等,都是人类珍贵的无形遗产。当一种语言消失后,与之对应的整个文明也会消失。当今处于弱势的民族语言正面临着强势语言、全球化、互联网等的冲击,正处于逐渐消失的危险之中。语言如此,方言亦是如此。作为语言研究人员,应该采取积极而有效的措施,抢救濒危方言,保护弱势方言,如此才能传承地域文化,营造多姿多彩的民族文化氛围,促进社会安定。
而方音自动识别平台采用的是云端储存,除了发生全球性大灾难,否则各种方言的方音特征將会长久保存,这对我国这个方言大国将具有深远的历史意义,对全球性语言文化的存续与发展也是一个很好的借鉴。
参考文献
[1]王自万.刑事案件侦查中的方言识别技术[J/OL].北京警察学院学报:1-7[2018-08-16].https://doi.org/10.16478/j.cnki.jbjpc.20180703.001.
[2]欧阳国亮,李志芳.方言识别在侦查应用中面临的问题及对策[J].山西警察学院学报,2017,25(01):51-54.
[3]张颖,王钢,安然.方言语料数据库管理系统设计[J].新乡学院学报(自然科学版),2008,25(03):57-58.
[4]赵文.社会方言及其在案件言语识别中的应用[J].湖南公安高等专科学校学报,2002(01):93-95.
作者简介:
刘晓峰(1970.10--),男,广东省潮州人,本科学历,毕业于中国刑事警察学院,中级工程师,文件检验,
吴粤野(1987.07--),男,广东省潮州人,本科学历,毕业于广东警官学院,助理工程师,文件检验,
(作者单位:广东省潮州市公安局)