语言信息速率的计算研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xuliyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人类语言数量众多,不同语言在表层形式上纷繁复杂,有着迥异于彼此的特点。但语言作为人类传递信息的工具,在传递信息的速率上是否有着一致的规律呢?本文基于多种语言的大规模语料库,对不同语言信息传递速率的定量规律进行了计算研究。在宏观视阈下,本文对不同语言整体上信息传递速率的具体数值进行了计算。基于大规模文本语料库与声学材料,我们对覆盖49.8亿母语者的61种语言进行了大规模语言样本的考察。结果表明,61种不同语言或方言的信息速率都集中在14.15(±2.26)bits/s左右,不同语言间的差异性很小。同时,计算结果还表明不同语言在词这一级语言单位上总是编码大小相当的信息量,这表明在词这一级语言单位上,不同语言不仅信息传递速率相当,信息编码策略也十分一致。在微观视阈下,本文考察了语流中每个词的时长和它所携带的信息量之间的关系。基于来自1 1种语言数百小时的连续语音数据,本文对数百万词的时长与信息量的关系进行了大样本的统计分析和建模研究。计算结果显示,不同语言中词的时长和信息量均呈现出极其显著的线性正相关,这表明发音人在语流中会下意识地根据词所携带的信息量大小控制词的时长,这在某种程度上揭示了语音实现细节和高层的语言功能之间的关系。同时,本文对语流中汉语声调的时长进行了案例研究,结果表明从声学和生理角度较难解释的汉语声调时长问题,可以通过信息熵的大小得到很好的解释。最后,本文通过数学方法将宏观与微观视阈下的研究结论统一在同一个数学形式中,并建立了一个统一的语言信息速率研究的理论框架。从这一规律出发可以对一些语言学现象进行较好的理论解释。这一理论框架同时为我们揭示了,底层的语音实现和高层的信息功能之间具有密切的关系。此外,本文研究发现不同语言在音位、音节和词的层面上具有迥异的信息编码规律和策略,这些规律对于语音学研究尤其是时长研究具有一定的启示。最后,本文简单讨论了这一研究结果对于历史语言学、二语教学、自然语言处理及演化人类学等研究领域的借鉴价值。
其他文献
在人类社会近五十年的发展历程中,半导体技术发挥了举足轻重的作用,它推动着人类社会快速步入信息化时代,是现代人类社会的基石技术之一。在过去五十多年,半导体器件尺寸一直沿着摩尔定律按比例缩小,单个微处理器芯片上场效应晶体管的数量从最早的几千个增长到今天的几百亿个,高集成度的半导体器件深刻地改变了整个人类的发展历史和每一个人的生活方式。场效应晶体管作为实际应用中最常见的半导体器件,是静态随机存取存储器、
学位
习总书记在党的十九大报告中提出了乡村振兴战略,强调在工作中要把三农问题作为重中之重,实现农业现代化的战略目标。近年来随着农业科技的快速发展,我国农业的生产方式也发生了明显变化,现代化农业机械设备更多应用于农业生产,新型经营主体规模明显扩大,我国的人口特征以及农业农村发展情况决定了未来相当长一段时期内,农业生产将呈现传统种植户与新型经营主体共存的局面。新背景下,在党的十九大报告中明确了新型经营主体对
学位
2 μm波段光纤激光器的工作波长处于人眼安全波段,并且覆盖液态水、温室气体和其他一些化合物(CO、SO2、N2O、H2S)的吸收带,因此其广泛应用于军事、医疗、通讯以及制造业等方面。而2 μm单频光纤激光器同时还具有低噪声、窄线宽以及相干长度长的优点,这些优点使得2μm单频光纤激光器在多普勒测风雷达、高精度光谱学,特别在引力波探测等高精度科学领域受到广泛的关注和研究,成为目前研究热点之一。Tm3+
学位
股价崩盘是指市场指数及个股价格突然急剧下滑的风险,是股票价格变化的极端表现。股价崩盘事件影响股东权益,削弱投资者对金融市场的信心,不利于金融市场稳定健康发展,乃至造成资源错配,危害实体经济的发展。导致崩盘风险的主要因素是企业内部人对企业信息的操纵,是高管隐瞒坏消息,对公司业绩夸大或对不良业绩进行粉饰,造成投资者与企业内部人的信息不对称,从而当坏消息累积达到容量上限被集中释放出来,会对企业造成巨大的
学位
2008年的金融危机导致我国经济复苏受阻。为了解决在经济运行中出现的问题,我国政府通过多种手段介入,以降低经济波动,实现社会稳定。近年来,学者针对经济政策不确定性的研究成果颇多,但是主要集中在对宏观指标以及微观企业层面,对家庭行为的影响还有待进一步拓展。家庭作为微观经济个体活动的重要代表,其资产配置行为受到了学者们的关注。目前,我国家庭资产中的房屋土地资产比例偏高、家庭资产类别分布不均衡,无法很好
学位
上市公司的信息披露对于投资者进行价值判断和投资决策来说至关重要,年度报告作为上市公司对外传递信息的主要载体,在信息披露中占据核心地位。年度报告信息主要由标准化的财务数字信息和非标准化的文本信息构成,二者综合体现了企业的经营和发展状况。其中,非标准化的文本信息在年报中占比更大,在中国这一高语境传播环境下,具有数字信息无法体现的丰富内涵,因此投资者不仅关注财务数字信息披露,文本信息披露语调也成为投资者
学位
随着我国现代化建设地不断推进,经济发展与环境保护“双赢”尤为重要,绿色金融由此诞生。绿色金融种类逐渐多样化,其中绿色债券就是绿色金融的一种。2016年我国绿色债券市场正式启动后,市场规模不断扩大,发债主体日益多样化,投资者认可度不断增加。但我国绿色债券市场仍然存在信息不对称、缺乏规范的信息披露机制、部分发债主体存在“漂绿”行为等现象,致使投资者对绿色债券融资仍然存在顾虑,缺乏信任度,从而导致绿色债
学位
改革开放以来,中国凭借廉价劳动力和自然资源等比较优势,实现了出口贸易和经济的快速发展。然而,制造业作为国民经济发展的重要支柱,仍然面临着“低端锁定”的发展困境。中国制造业的出口技术含量未能与出口贸易和经济发展实现同水平的提升,制造业大而不强的现实问题十分突出。生产性服务能够作为中间投入将高级生产要素嵌入制造业,对制造业出口技术复杂度提升、全球价值链攀升和经济增长产生深刻影响。因此,中国要想提升制造
学位
《古今韻會舉要》成書於元代,是一部集音韻、文字、訓詁於一體的重要典籍。其著書每字以《說文》定其初義,保留大量語料,對《說文》文本,尤其是對《說文繫傳》有極大的校勘價值。本文窮盡式地搜集《韻會》徵引《說文》條目共6735條,包括徵引徐鍇注釋2352條,並與《說文繫傅》在用字、釋義以及注釋上進行詳細地對比分析,重點研究二書差異之處,從中找出《韻會》引文能校勘《說文繫傳》的地方進行分析論證,同時對未能校
学位
对语言规范无意识、非病理性的消极偏离都可视为语误。语误是观察人类言语行为的重要窗口。而当今老龄化社会背景下日益突出的老年认知障碍问题,赋予语误研究新的时代意义。本文从广义的语误概念出发首次尝试开展实验室诱发语误的方法探索,不仅对研究汉语本体的言语加工机制有重要的参考价值,而且也很有潜力成为开展语言认知功能障碍评估和老年语言认知治疗康复的有效手段。全文共分为五章:第一章绪论。综述印欧系语言和汉语语误
学位