论文部分内容阅读
随着生活需求趋于多元,学习成本不断提高,语言学习者希望通过一种高效的学习方式,以便在较短的时间内掌握一门语言。认知语言学理论表明“人是通过认知和理解才学会并运用语言”的,对传统的生成语言学理论提出挑战。互联网的普及带来海量数据,深度学习技术持续加热。本文将结合深度学习技术,从认知学的角度度量语言在其两个重要维度——语义和语音的距离。在人们的认知中,词汇的相近不仅仅体现在语义方面,例如“father”和“strict”在语义上的关联性并不强,但它们在很多人的认知中却联系密切。是否能用计算模型来模拟这种人们在认知层面上建立的词语距离感知模型,是面向认知的语义距离计算尝试探索的主要内容。为此,本文从人们词汇联想的角度出发构建了数据集,提出了面向认知的词汇距离计算方法,包括基于MLP和基于CNN的计算方法。在所有标记词汇定义为正例的数据划分策略中,基于MLP和CNN的计算方法的性能优于传统的余弦相似度计算方法,MLP模型平均F1值在0.7909,CNN模型则为0.7974。本文提出的基于MLP和CNN的计算方法可以较好地弥补基于大量统计文本生成的词向量和面向认知的语义距离计算方法之间的鸿沟,可以较好的模拟人们在进行词汇联想时对词语的距离感知。在语言学习中,学习者必须具有分辨相似读音的能力。对于极易混淆的读音,如“bear”与“pair”,“bell”以及“dear”等单词,在人们的口语学习中发声和辨识都是一个难点。而这种人们听觉接近的读音能否通过模型模拟出来,是面向认知的语音距离计算探索的主要内容。为此,本文从人们容易产生混淆的读音出发构建了数据集,提出了面向认知的语音距离计算方法,包括基于GRU和LSTM的双向RNN计算方法、CNN计算模型以及CNN结合LSTM计算方法。在基于编辑距离为1构造的数据集中,以上方法均取到了最好的F1值,并且CNN结合LSTM的方法效果最佳,F1值为0.8649。本文提出的面向认知的语音距离计算方法对于人们听觉上混淆音具有一定的判别能力。