论文部分内容阅读
摘 要:笔者在调查之后发现,我国语言研究人员在对聚类分析研究内,研究并不深入,同时也并不了解聚类分析实际应用情况。本文在对聚类分析研究内,对聚类分析在外国语言学研究中的应用进行了解,希望能够对聚类分析深入分析研究。聚类分析属于统计分析技术,同时具有研究方法意义,可以对数据驱动形式深入了解,尤其是特别强调聚类分析在语言分析研究内主要手段。
关键词:聚类分析;语料库;外国语言研究
前言:聚类分析也称之为数值分类学,属于统计分类领域内主要技术。聚类分析在人工学及社会学等领域内广泛应用,并且都取得了显著应用成果。在语言学分析研究内,语言分类依旧存在较多问题,但是语言研究人员主要采取定性方法进行划分,很少借助计量手段进行划分。根据现阶段研究人员调查结果表示,我国语言类研究人员很少借助聚类分析对统计方式分析研究,聚类分析在外国语言学研究内应用还存在一定局限性,需要进一步分析研究。
一、聚类分析
聚类分析定义为:在没有类别标记信息对象所构成的集合内,每一个信息对象都具有n個属性或者是特点。聚类分析按照集合内不同信息对象所具有的算法将信息对象自动进行类别划分,同时每个类别都可以自动识别,最大程度保证每一个组别内信息对象都具有较高同质性,与其他类别之间存在较大异质性。
正常情况下,语言学家在对对象划分内,按照指标对信息对象进行定性类别划分。但是在面对大量指标情况下,尤其是定比数量指标定距数量指标,这种类别划分也就无法划分。在这种情况下,就可以借助聚类分析进行类别划分。通过信息对象特征向量,对每一个信息对象标记,然后对其信息对象进行聚类划分。聚类分析可以对数据结构及模式了解,认识到不同变量之间所存在的关联。聚类分析所具有的算法类别较多,同时新型聚类方式也在不断进行完善创新。按照笔者调查统计,聚类分析在外国语言学研究内应用,应用最为广泛的一种方法为聚合型层次聚类法[1]。
二、聚类分析在外国语言学应用现状
本文在对聚类分析在外国语言学研究中应用现状分析研究内,主要对聚类分析在我国王国语言学研究内应用总体情况进行了解。在对该内容进行解答内,笔者查阅了大量社科文献,其中还包含外文文献。笔者在对不同类别文献类型划分内,以聚类作为搜索核心,可以看见聚类在不同学科内所具有的数量。这些数字可以有效体现出聚类分析在不同学科内应用频率。
聚类分析在不同学习可搜索内,相关文献篇数最多的为中国文学,文献篇数为192,其中包含聚类一词文献篇数为20篇;第二名为中国语言文学,文献篇数为1131,其中包含聚类一词文献篇数为142;第三名为外国语言文学,文献篇数为571,其中包含聚类一词文献篇数为73[2].
三、聚类分析在语言研究中的应用领域
聚类分析在语言领域研究内应用,主要应用在三个方面上,分别为语义、句法型式、认知语言。正常情况下,聚类分析在应用内需要和语料库数据相结合。
(一)词汇语义学
在语言学内存在这样一个假设:假设语言项目内语境分布情况可以有效体现出该语言项目特征。语言成分可以有效体现出语言成分,并且体现出语言成分所存在的限制。语料库在实际应用内,可以为语言项目提供环境信息,例如语言出现频率。按照语料库所提出的特点信息,聚类分析在词汇语义学内应用,可以客观对词汇反义词及近义词实际用法及意义进行对比分析。例如,gries在分析研究内就提出,聚类方法在词汇行为轮廓上应用,可以对词汇深入分析研究[3]。
(二)句法型式研究
人们可以借助聚类分析对语料库内所具有的句法结构进行类别划分,进而增加对句法深入分析研究。例如,在对语料库内部分单词进行搜索内,就可以借助聚類分析方法进行识别提取,进而了解到该词汇句法行为,对词汇进行系统并且全面了解。借助聚类分析方式,可以对词汇句法深入分析研究,编制词典,并且也能够提升外语教学质量。
型式主要由三部分短语单位构成,分别为名词、动词、足语,例如,v表示短语单位核心词,into表示短语单位实际词项,n表示短语单位名词。对型式语法进行分析研究,主要目的就是希望可以对不同词类所具有的型式抽象化归纳了解。
(三)语言文体变异研究
在整个语言文章内,包含较多语言结构单位,进而在对特征统计。语言具有多种统计特征,例如句长、型符类符比、词性比例等。在大部分实证分析研究内,可以对不同语言特点在文章内所存在的变化进行里了解。文章在文体、题材、语言风格等方面所存在的差别,就会构成不同语言结构单位。不同特征频率所发生的变化,进而构成了风格十分迥异语篇风格,奠定文体基础结构特征。在对文体特点进行统计分析内,在1851年由数学家mor所提出,并且对其大胆创新[4]。
四、聚类分析优势
聚类分析在应用内最为显著优势就是可以定量对信息对象客观认知,了解不同信息对象可重复性。聚类分析在开展中,是以真实数据作为基础条件,也就是说聚类分析结果具有客观性,但是这并不表示可以完全排除主观因素影响。聚类分析在三个方面上还存在一定主观性,分别为计算方式、算法选择、聚类数值特点。但是,聚类分析所应用的数据指标在人为设定之后,聚类分析也就具有可检验特征,为聚类分析结果精确性进行判断[5]。
从主观定位层面来说,聚类分析方法所具有的重复性相对较低,主要原因是由于不同专家在总结经验及理论素养等方面存在显著差别,无法对其复制,进而所得出的结果还存在显著差别。总所周知,科学研究是以可重复性及客观性作为基础特征及要求,因此聚类分析在应用内具有一定科学性。
五、聚类分析在外国语言学研究发展前景
二十一世纪作为大数据时代,语料库所具有的数据信息更加丰富,聚类分析也越加完善成熟。截止到目前位置,大部分语言方面研究人员都语言数据深入分析研究,逐渐将研究重点放在语言用法数据上面。研究人员研究表示,语言直觉语言数据信息稳定性十分有限,但是要是借助语言用法数据,语言研究稳定性可以显著提升,有效提升语言研究生态效应。由此可知,聚类分析在外国语言学研究应用分析研究内,需要借助大规模语言数据对语言知识知识挖掘,庞大语言数据无法通过人工方式处理。聚类分析就是语言数据深入分析研究主要手段。外国语言研究人员需要对数据挖掘技术进行了解,尤其是聚类分析,进而才能够对语言深入分析研究[6]。
结论:聚类分析作为语言研究主要工具,需要与语料库语言紧密结合。本文在分析研究内发现,外国语言学研究人员对聚类分析了解十分有限,并无法实际应用,聚类分析由于具有较多优势,所以在聚类分析在外国语言学研究内应用还需要进一步完善,充分发挥出聚类分析优势。
参考文献:
[1]周光华,李岳峰,孟群.模糊聚类分析在医学图像处理中的应用[J].中国卫生信息管理杂志,2011,04:69-73.
[2]朱永宽,谷涓涓.自适应遗传算法在聚类分析中的应用[J].黑龙江科技信息,2010,25:52-53.
[3]岳鑫鑫.认知语言学在语篇分析中的应用[J].黑龙江科技信息,2012,33:201.
[4]居祥,张燕,黄贤金.聚类分析在长江流域地区房地产价格研究中的应用[J].经济地理,2013,03:79-83.
[5]张丽霞.反思性教学在外国语言学课程改革中的应用研究[J].亚太教育,2016,35:238+237.
[6]屈家安,曹杰.主成分分析与聚类分析在青岛夏季气温变化研究中的应用[J].大气科学学报,2014,04:517-520.
关键词:聚类分析;语料库;外国语言研究
前言:聚类分析也称之为数值分类学,属于统计分类领域内主要技术。聚类分析在人工学及社会学等领域内广泛应用,并且都取得了显著应用成果。在语言学分析研究内,语言分类依旧存在较多问题,但是语言研究人员主要采取定性方法进行划分,很少借助计量手段进行划分。根据现阶段研究人员调查结果表示,我国语言类研究人员很少借助聚类分析对统计方式分析研究,聚类分析在外国语言学研究内应用还存在一定局限性,需要进一步分析研究。
一、聚类分析
聚类分析定义为:在没有类别标记信息对象所构成的集合内,每一个信息对象都具有n個属性或者是特点。聚类分析按照集合内不同信息对象所具有的算法将信息对象自动进行类别划分,同时每个类别都可以自动识别,最大程度保证每一个组别内信息对象都具有较高同质性,与其他类别之间存在较大异质性。
正常情况下,语言学家在对对象划分内,按照指标对信息对象进行定性类别划分。但是在面对大量指标情况下,尤其是定比数量指标定距数量指标,这种类别划分也就无法划分。在这种情况下,就可以借助聚类分析进行类别划分。通过信息对象特征向量,对每一个信息对象标记,然后对其信息对象进行聚类划分。聚类分析可以对数据结构及模式了解,认识到不同变量之间所存在的关联。聚类分析所具有的算法类别较多,同时新型聚类方式也在不断进行完善创新。按照笔者调查统计,聚类分析在外国语言学研究内应用,应用最为广泛的一种方法为聚合型层次聚类法[1]。
二、聚类分析在外国语言学应用现状
本文在对聚类分析在外国语言学研究中应用现状分析研究内,主要对聚类分析在我国王国语言学研究内应用总体情况进行了解。在对该内容进行解答内,笔者查阅了大量社科文献,其中还包含外文文献。笔者在对不同类别文献类型划分内,以聚类作为搜索核心,可以看见聚类在不同学科内所具有的数量。这些数字可以有效体现出聚类分析在不同学科内应用频率。
聚类分析在不同学习可搜索内,相关文献篇数最多的为中国文学,文献篇数为192,其中包含聚类一词文献篇数为20篇;第二名为中国语言文学,文献篇数为1131,其中包含聚类一词文献篇数为142;第三名为外国语言文学,文献篇数为571,其中包含聚类一词文献篇数为73[2].
三、聚类分析在语言研究中的应用领域
聚类分析在语言领域研究内应用,主要应用在三个方面上,分别为语义、句法型式、认知语言。正常情况下,聚类分析在应用内需要和语料库数据相结合。
(一)词汇语义学
在语言学内存在这样一个假设:假设语言项目内语境分布情况可以有效体现出该语言项目特征。语言成分可以有效体现出语言成分,并且体现出语言成分所存在的限制。语料库在实际应用内,可以为语言项目提供环境信息,例如语言出现频率。按照语料库所提出的特点信息,聚类分析在词汇语义学内应用,可以客观对词汇反义词及近义词实际用法及意义进行对比分析。例如,gries在分析研究内就提出,聚类方法在词汇行为轮廓上应用,可以对词汇深入分析研究[3]。
(二)句法型式研究
人们可以借助聚类分析对语料库内所具有的句法结构进行类别划分,进而增加对句法深入分析研究。例如,在对语料库内部分单词进行搜索内,就可以借助聚類分析方法进行识别提取,进而了解到该词汇句法行为,对词汇进行系统并且全面了解。借助聚类分析方式,可以对词汇句法深入分析研究,编制词典,并且也能够提升外语教学质量。
型式主要由三部分短语单位构成,分别为名词、动词、足语,例如,v表示短语单位核心词,into表示短语单位实际词项,n表示短语单位名词。对型式语法进行分析研究,主要目的就是希望可以对不同词类所具有的型式抽象化归纳了解。
(三)语言文体变异研究
在整个语言文章内,包含较多语言结构单位,进而在对特征统计。语言具有多种统计特征,例如句长、型符类符比、词性比例等。在大部分实证分析研究内,可以对不同语言特点在文章内所存在的变化进行里了解。文章在文体、题材、语言风格等方面所存在的差别,就会构成不同语言结构单位。不同特征频率所发生的变化,进而构成了风格十分迥异语篇风格,奠定文体基础结构特征。在对文体特点进行统计分析内,在1851年由数学家mor所提出,并且对其大胆创新[4]。
四、聚类分析优势
聚类分析在应用内最为显著优势就是可以定量对信息对象客观认知,了解不同信息对象可重复性。聚类分析在开展中,是以真实数据作为基础条件,也就是说聚类分析结果具有客观性,但是这并不表示可以完全排除主观因素影响。聚类分析在三个方面上还存在一定主观性,分别为计算方式、算法选择、聚类数值特点。但是,聚类分析所应用的数据指标在人为设定之后,聚类分析也就具有可检验特征,为聚类分析结果精确性进行判断[5]。
从主观定位层面来说,聚类分析方法所具有的重复性相对较低,主要原因是由于不同专家在总结经验及理论素养等方面存在显著差别,无法对其复制,进而所得出的结果还存在显著差别。总所周知,科学研究是以可重复性及客观性作为基础特征及要求,因此聚类分析在应用内具有一定科学性。
五、聚类分析在外国语言学研究发展前景
二十一世纪作为大数据时代,语料库所具有的数据信息更加丰富,聚类分析也越加完善成熟。截止到目前位置,大部分语言方面研究人员都语言数据深入分析研究,逐渐将研究重点放在语言用法数据上面。研究人员研究表示,语言直觉语言数据信息稳定性十分有限,但是要是借助语言用法数据,语言研究稳定性可以显著提升,有效提升语言研究生态效应。由此可知,聚类分析在外国语言学研究应用分析研究内,需要借助大规模语言数据对语言知识知识挖掘,庞大语言数据无法通过人工方式处理。聚类分析就是语言数据深入分析研究主要手段。外国语言研究人员需要对数据挖掘技术进行了解,尤其是聚类分析,进而才能够对语言深入分析研究[6]。
结论:聚类分析作为语言研究主要工具,需要与语料库语言紧密结合。本文在分析研究内发现,外国语言学研究人员对聚类分析了解十分有限,并无法实际应用,聚类分析由于具有较多优势,所以在聚类分析在外国语言学研究内应用还需要进一步完善,充分发挥出聚类分析优势。
参考文献:
[1]周光华,李岳峰,孟群.模糊聚类分析在医学图像处理中的应用[J].中国卫生信息管理杂志,2011,04:69-73.
[2]朱永宽,谷涓涓.自适应遗传算法在聚类分析中的应用[J].黑龙江科技信息,2010,25:52-53.
[3]岳鑫鑫.认知语言学在语篇分析中的应用[J].黑龙江科技信息,2012,33:201.
[4]居祥,张燕,黄贤金.聚类分析在长江流域地区房地产价格研究中的应用[J].经济地理,2013,03:79-83.
[5]张丽霞.反思性教学在外国语言学课程改革中的应用研究[J].亚太教育,2016,35:238+237.
[6]屈家安,曹杰.主成分分析与聚类分析在青岛夏季气温变化研究中的应用[J].大气科学学报,2014,04:517-520.