论文部分内容阅读
我国的非物质文化遗产(简称“非遗”)在中华传统文化中扮演着十分重要的角色,是蕴含着各族人民智慧的宝贵知识。文本作为非遗知识的一种载体,有着记录方式简单,检索方便等优势。目前传统的非遗长文本之间大多缺乏有效的关联性,其中碎片化的数据较多,这一问题很大程度上限制了人们对于非遗知识的获取以及非遗文化的传播。目前的非遗垂直领域应用平台大多通过人工的方式去建立非遗长文本之间的关系,当文本数据量较大时,这种方式的成本会变得很高。本文对自然语言处理(Natural Language Processing,NLP)领域的文本相似度方法进行研究,对于其中的词移距离(Word Mover’s Distance,WMD)进行改进,进而得到SWC-WMD距离,并以此为核心建立了非遗长文本的聚类方法。这一方法后续可用于非遗平台的知识图谱、全文检索、相关推荐等功能的建立,这样可以提高非遗长文本之间的关联性,有利于非遗知识的传播与发展。在自然语言处理任务中,计算机需要对自然语言进行数字化。传统的文本表示方法存在语义缺失、稀疏矩阵等问题。本文通过引入word2vec词嵌入模型,基于它的预训练模型以迁移学习的方式对非遗语料进行训练,得到包含有非遗语义信息并且维度较低的稠密词向量,并通过词向量内部评估的相关性准则实验对生成的非遗词向量进行了有效性评估。WMD距离在对非遗长文本进行相似度计算时,单一地通过词频来计算词语的转移权重,忽略了不同类别词语对文本贡献度的不同,即无法体现出非遗词对非遗长文本的贡献度。SWC-WMD距离通过对于非遗词和其他词分别进行设置不同的权重,有效地提高了非遗词在文本中的贡献度;当WMD距离计算的文本中词语维度过高时,这一方法会耗时很久。SWC-WMD距离通过对非遗长文本中的特征词进行提取,最后通过计算特征词向量来得到非遗长文本间的距离,有效提高了 WMD距离计算非遗长文本相似度的效率。在本文构建的非遗长文本数据集上对WMD距离、SWC-WMD距离以及TF-IDF-WMD距离进行聚类实验,基于评价标准中的准确率和F1值,从特征词数量对聚类结果的影响、不同距离对于聚类结果的影响对实验结果进行评估。最终结果表明,相较于其他两个距离,SWC-WMD距离的非遗长文本聚类结果的准确率和F1值都有所提高,进而证明了本文方法的有效性。