基于SWC-WMD距离的非遗长文本聚类研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:TSNT1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国的非物质文化遗产(简称“非遗”)在中华传统文化中扮演着十分重要的角色,是蕴含着各族人民智慧的宝贵知识。文本作为非遗知识的一种载体,有着记录方式简单,检索方便等优势。目前传统的非遗长文本之间大多缺乏有效的关联性,其中碎片化的数据较多,这一问题很大程度上限制了人们对于非遗知识的获取以及非遗文化的传播。目前的非遗垂直领域应用平台大多通过人工的方式去建立非遗长文本之间的关系,当文本数据量较大时,这种方式的成本会变得很高。本文对自然语言处理(Natural Language Processing,NLP)领域的文本相似度方法进行研究,对于其中的词移距离(Word Mover’s Distance,WMD)进行改进,进而得到SWC-WMD距离,并以此为核心建立了非遗长文本的聚类方法。这一方法后续可用于非遗平台的知识图谱、全文检索、相关推荐等功能的建立,这样可以提高非遗长文本之间的关联性,有利于非遗知识的传播与发展。在自然语言处理任务中,计算机需要对自然语言进行数字化。传统的文本表示方法存在语义缺失、稀疏矩阵等问题。本文通过引入word2vec词嵌入模型,基于它的预训练模型以迁移学习的方式对非遗语料进行训练,得到包含有非遗语义信息并且维度较低的稠密词向量,并通过词向量内部评估的相关性准则实验对生成的非遗词向量进行了有效性评估。WMD距离在对非遗长文本进行相似度计算时,单一地通过词频来计算词语的转移权重,忽略了不同类别词语对文本贡献度的不同,即无法体现出非遗词对非遗长文本的贡献度。SWC-WMD距离通过对于非遗词和其他词分别进行设置不同的权重,有效地提高了非遗词在文本中的贡献度;当WMD距离计算的文本中词语维度过高时,这一方法会耗时很久。SWC-WMD距离通过对非遗长文本中的特征词进行提取,最后通过计算特征词向量来得到非遗长文本间的距离,有效提高了 WMD距离计算非遗长文本相似度的效率。在本文构建的非遗长文本数据集上对WMD距离、SWC-WMD距离以及TF-IDF-WMD距离进行聚类实验,基于评价标准中的准确率和F1值,从特征词数量对聚类结果的影响、不同距离对于聚类结果的影响对实验结果进行评估。最终结果表明,相较于其他两个距离,SWC-WMD距离的非遗长文本聚类结果的准确率和F1值都有所提高,进而证明了本文方法的有效性。
其他文献
学位
联合办公空间功能更加复合化与弹性化,如何维系功能安排和用户需求的平衡是联合办公空间设计所需面临的问题。为此,提出一种新的设计模式——联合办公空间参与式设计。在该模式下,倡导设计者、运营者、使用者联动,激发使用者的空间主人翁意识,使得联合办公空间设计结果更加贴近实际工作场景。结合粤港澳大湾区和创联合办公空间的实际实践,总结其具体应用策略和方法。本研究以期为日后类似的联合办公空间参与设计项目提供参考,
期刊
学位
随着城市的飞速发展,房价的逐步升高,使得大部分“留汉”大学毕业生不能马上购房,更有甚者不能租到高租金的房屋。而“群租房”以相对较低的价格,受到不少大学毕业生的青睐,但随之而来造成的消防火灾、扰民、卫生、漏水等各种社会公共问题也给城市居民生活带来了极大的困扰,并引发了各界媒体和专家学者的深入探讨。“群租房”成为了城市化进程中的“顽疾”,由群租所带来的各种民事纠纷、治安问题和社会矛盾等层出不穷。因此,
学位
学位
学位
学位
学位
学位
城市轨道交通直流牵引供电系统是一个低电压大电流系统,受制于开关器件的通流能力,两电平变流器的单台容量难以满足需求。由全桥子模块和半桥子模块组成的混合型模块化多电平换流器(modular multilevel converter,MMC)可用于调制比大于1的系统中,利用全桥子模块的负电平输出能力,可以提高交流电压或降低直流电压。针对可用于城市轨道交通直流牵引供电系统的混合型MMC,提出一种全桥子模块
期刊