面向跨境民族文化的文档关联分析方法研究

来源 :陈春吉 | 被引量 : 0次 | 上传用户:cai67716029
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,网络已经成为文化传播的主要载体,利用智能化信息技术及时获取和分析边疆民族文化大数据意义重大。跨境民族文档关联分析能够省时省力地帮助人们分析跨境民族文化间的差异性,及时获取跨境民族文化文本数据之间的关联关系。然而,跨境民族文化文档关联分析属于特定领域任务,文本数据中语义比较复杂,仅通过现有的深度学习模型探索跨境民族文化文本数据之间的关联存在一定的困难。本文立足于跨境民族文化领域的实际需求,围绕跨境民族文化文本数据的特点,基于分层注意力网络、图卷积神经网络以及卷积神经网络等前沿技术,研究了跨境民族文化文本分类任务、跨境民族文化文本聚类任务以及跨境民族文化文本排序任务。主要的工作如下:(1)融合领域知识图谱的跨境民族文本分类方法利用文本分类技术区分出跨境民族文化文本数据是跨境民族文化文档关联分析任务的基础。基于跨境民族文化文本数据缺乏外部知识引导的情况下,识别原文中的重要信息的能力不足,导致跨境民族文化类别分类不准确的问题,提出了融合领域知识图谱的跨境民族文本分类方法。利用跨境民族文化知识图谱对文本中的跨境民族实体进行语义扩展,通过实体在知识图谱中的类别特征来增强文本的类别语义特征。利用标题辅助正文锁定关键词、补充和概括正文的优势将其与正文进行联合,并把提取到的不同层次的特征信息结合到一起辅助分类,缓解了跨境民族文化类别交叉的问题。实验结果表明提出的融合领域知识图谱的跨境民族文本分类方法较基线模型取得了较好的分类效果。(2)融合领域知识图谱的跨境民族文本聚类方法从大规模的跨境民族文化文本数据中找出文本之间的关联关系是跨境民族文化文档关联分析任务的重点。现有文本聚类模型大多基于文本本身的语义特征出发,无法捕获文本之间的关联关系,基于跨境民族文化文本数据本身的特点,提出一种融合领域知识图谱的跨境民族文本聚类方法。利用跨境民族文化知识图谱扩展实体语义信息后进行文本局部特征向量的提取,构造了一个包含文本、主题和实体的跨境民族文化文档关联分析图,采用异构图卷积神经网络学习丰富的跨境民族文化文本数据的全局特征表示,通过变分自编码网络融合文本局部和全局特征信息,利用跨境民族文化文本的潜在特征表示进行聚类。实验结果表明,提出的融合领域知识图谱的跨境民族文化文本聚类方法较基线模型取得了更好的聚类效果。(3)融合文档主题特征的跨境民族文本排序方法对跨境民族文化文本数据进行检索是跨境民族文化文档关联分析任务的重要环节,其中对排序是文本检索任务的重要环节。基于现有文本排序方法采用文本间的语义相似度进行排序忽略文本间的主题特征信息,导致检索结果不全面的问题,提出了一种融合文档主题特征的跨境民族文本排序方法。利用知识表示模型对跨境民族文化知识图谱中的三元组信息进行向量化表示,将其融合到文本中补充检索文本实体语义信息,利用文本聚类方法捕获文本数据之间的关联关系,将文档主题特征融入到检索文本和待检索文本中,构建检索文本和待检索文本之间的相似度矩阵,检索出与查询文本相关的文本数据,根据文本相似度分数排序。实验结果表明,提出的融合文档主题特征的跨境民族文本排序方法较基线模型取得了更好的效果。(4)跨境民族文化文本关联分析原型系统的设计与实现基于以上研究成果,设计并实现了跨境民族文化文档关联分析原型系统。集成了数据处理模块、跨境民族文化实体语义扩展模块、跨境民族文化文本分类模块、跨境民族文化文本检索模块,为相关用户提供了可视化的信息获取平台。
其他文献
吸收解吸是一种典型的化工单元,在工业中广泛应用于制取产品、分离混合气体、废气治理等方面。吸收解吸实训装置有效衔接了仿真教学与工业实际生产之间的环节,为培养行业岗位需求的技能提供良好的平台。为提升吸收解吸控制精度、简化数据处理、实现系统的优化控制,本文采用上位机和下位机的方式构建控制系统。采用触摸屏和三维力控组态软件作为上位机实现双路控制,它们均可对装置中阀门状态、气泵状态进行远程监控和操作,实时显
期刊
带电作业技术是保证电力配送网络安全可靠连续运行、减少电网维护成本和提高供电质量的一项关键技术。我国已建成世界上规模最大的电网,但目前配网线路的带电检修作业仍几乎全部由人工完成,由于电网作业环境的复杂性和危险性,检修人员的生命安全得不到有效保证,事故伤亡率较高。近二十年来,国内外研究机构研制了多款配网带电作业机器人,举升机构将电动或液压机械臂举升至作业场景,操作人员在高空绝缘斗内或地面通过遥操作进行
学位
世界范围内生态系统的破坏和退化问题,使生态系统修复的工作得到了国内外学者的广泛关注。近年来,随着山水林田湖草生命共同体理念在中国被提出,并逐渐被推行,各组成要素的生态过程愈发被认为是相互影响、相互制约、以及不可分割的。生态系统的三个重要特征是整体性、综合性和系统性,由此,从综合的角度考虑生态系统修复应该更为科学。但是,目前生态保护修复分区的研究,仍然对于生态系统问题诊断的综合性考虑不足,未能彰显山
学位
肠道菌群与诸多人类重大疾病相关,比如,肝硬化、糖尿病、肥胖症、自闭症等,研究在不同条件下肠道菌群结构差异具有重要意义。传统聚类方法识别肠道菌群数据中结构模式时,对噪声敏感,运行时间长,无法处理不规则数据。而谱聚类不仅可以聚类任意形状的样本数据,能够收敛于全局最优解,对数据分布的适应性更强,计算量小,且具有更高的性能。因此本文采用谱聚类(Spectrum)方法来分析肠道菌群结构,以轻微肝性脑病和2型
学位
在实现“双碳”目标的背景下,我国“三西”地区受特殊能源资源开发条件与生态环境所限,尽管为国家经济发展提供了强大的能源支撑,但也为我国自然环境的演变贡献了大量的煤炭采空区与二氧化碳。回顾了“三西”地区煤炭采空区形成的历史原因,分析了实施能源“立体开发模式”的必要性与有利条件,提出该地区煤炭开采业应当加快转变发展模式,在政府的组织协调下与土地承包户建立合作关系,创造条件,高效利用采空区煤炭、土地、太阳
期刊
癫痫是一种慢性脑神经疾病,由神经元过度和瞬时放电引起。全世界有数百万癫痫患者,患者不仅生活质量降低,丧失生产力,还可能导致过早死亡。在医学上,头皮或颅内脑电图反映了头部表面的电活动,包含大量病理信息,是作为诊断癫痫的重要标准之一。目前大多采用时频域、非线性等方法研究癫痫脑电,易忽略脑电空间位置信息。微状态分析方法能获取脑电的时间动态信息和空间位置信息,被用于很多脑神经疾病的研究,然而患者脑电微状态
学位
骨质疏松症是由于骨吸收和骨形成之间的动态平衡被打破,从而导致骨质流失,骨密度降低以及骨骼微细结构遭到破坏所形成的一种慢性骨代谢疾病。近年来,越来越多的研究证明,外泌体疗法将成为骨质疏松治疗的一个重要方向。外泌体是参与细胞间通信的脂质双分子层细胞外囊泡,可通过传递脂质、蛋白质、核酸的方式调节受体细胞的生物活性。其来源十分广泛,可存在于各种生物体液中,也由多种动物细胞分泌,如间充质干细胞等。脂肪来源的
期刊
脑机接口(BCI)可以提供一种将大脑信息传递给外界的通信方式,完成与中枢神经系统和外设的直接交互。基于运动想象的脑机接口(MI-BCI)由受试者的心理活动驱动,脑电信号在健康人和患有神经肌肉疾病的患者等个体中容易检测到。目前,MI-BCI对脑控机器人,如康复机器人、护理床机器人、无人驾驶飞行器等起着重要的作用。多数的MI-BCI,主要向外设提供离散的逻辑控制命令,如简单的方向控制意图,这是通过识别
学位
目的 探讨腹腔镜卵巢囊肿切除术对卵巢囊肿(OC)患者卵巢功能及生活质量的影响。方法 选取我院2019年1月至2020年12月收治的100例OC患者作为研究对象,以随机数字表法将其分为传统组(50例,传统开腹手术)和腹腔镜组(50例,腹腔镜卵巢囊肿切除术)。比较两组患者的临床指标、术后1年内的妊娠率和流产率、性激素水平、卵巢形态和功能指标、生活质量。结果 腹腔镜组的手术时长、卧床时长、住院时长均短于
期刊
随着热点案件的发生而伴生的涉案舆情新闻迅速传播,涉案新闻的主题分析及匹配变得尤为重要,亦是舆情监测的重要组成部分。然而,由于涉案新闻的数据来源广泛,格式多样化,网络爬取的涉案新闻文本分布不均衡,文本结构和语义差异性大,并且含有较多冗余信息,常规的主题分析方法很难抽取出涉案新闻中具有涉案偏好的主题信息,同时也导致了涉案新闻文本匹配性能较差。本文首先过滤出爬取新闻中的涉案新闻数据;其次从规整法律文书数
学位