法语文本聚类方法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:a15892465043
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
法语作为众多国际组织的工作语言之一,在全世界具有深远影响。随着我国“一带一路”倡议的提出及经济全球化的深入发展,我国与以法语为母语的国家交流也会越来越多,对法语文本自动化分析要求也越来越高。为了快速挖掘法语国家的文本数据,对法语文本的文本聚类研究变得尤为重要。主要从以下几个方面开展工作:(1)法语文本词语提取方法研究。词语提取是文本挖掘的基础研究,词语提取的完整性对文本挖掘有重要影响。本文首先对法语文本进行预处理,基于现成法语词语工具进行词性标注和词形还原。然后基于法语构词特点和统计规律构建文本FP序列树提取法语候选词语。之后基于改进的TF-D词语判别方法判断词语是否成词,将候选词按照判别结果降序排列,并使用人工判断最终词语提取结果。(2)法语文本聚类方法研究。基于词语提取的结果及词袋模型,本文分别使用TF-D、TF-IDF特征表示方法构建语料的文本特征并提取文本特征词,然后基于实例分别介绍基于划分的K-means聚类、PAM聚类及CLARA聚类方法,并将三种聚类方法的异同做了详细比较分析。(3)法语文本词语提取方法和文本聚类方法应用研究。使用联合国平行语料库中的法语语料,首先基于FP序列树提取能够构成词语的单词串,通过TF-D词语判别方法判断词语是否能够构成词语,并且通过与N-gram、CST’s lemmatiser等词语提取方法工具及本实验评价指标验证词语提取方法的有效性与可行性。其次为法语文本聚类应用研究,基于不同特征表示方法判别语料中文本特征词并基于轮廓系数分析评价文本聚类结果,以比较文本聚类方法的异同。实验表明,本文方法在法语文本聚类各方面效果均较令人满意,其中基于FP序列树的法语文本词语提取方法同其他方法相比具有更好准确率及更低的误判率,基于TF-D特征表示下的K-means、PAM及CLARA聚类方法的聚类效果亦优于TF-IDF特征表示方法。对于给定的法语语料,先后使用本文提出的词语提取方法和文本聚类方法,就能高质量获取该语料各文档所属类别并展现完整关键词,用于支持相关组织的管理决策。
其他文献
期刊
结构健康监测中结构动力响应数据的有效测量,依赖于安装在结构上的传感器类型、数量和布设位置。由于经济成本及现场安装效率等原因,安装在结构上的传感器数目始终有限。因此,如何优化布置这些有限数目的传感器,是一个重要的研究课题。传统的传感器优化布设方法主要是单目标优化且大部分是用删除法,大多只能得到局部优化解。近些年,利用智能算法求解优化问题,取得了极大的进展。人工鱼群算法作为一种全局性的智能优化算法,具
学位
不锈钢管混凝土结构具有优良的力学性能,已在诸多工程结构中得到应用。过去有关不锈钢管混凝土结构的研究主要集中在普通奥氏体304不锈钢与奥氏体-铁素体双相型不锈钢。目前,福建青拓集团推出一种新型高强不锈钢QN1803,其屈服强度、抗拉强度以及硬度均高于奥氏体304不锈钢。QN1803作为新型钢种,力学特性目前尚未明确。采用新型钢种QN1803的不锈钢管混凝土结构更是缺乏基础性研究,不利于结构的推广应用
学位
太阳能和氢能是两种具有广泛应用前景的无碳能源载体,有望缓解化石能源的匮乏及燃烧化石能源时衍生的环境问题。染料敏化太阳能电池(DSSC)是高效利用太阳能的一种装置,其成本低廉、结构简单、环境友好,因此有望成为太阳能电池的主导。与此同时,在各种制氢手段中,电解水制氢过程无污染且能够实现大规模量产。在染料敏化太阳能电池与电解水的氢析出反应(HER)中都需要Pt贵金属催化剂实现高效催化。然而Pt的价格昂贵
学位
半导体光电化学分解水是将太阳能直接转化氢能的理想途径之一,其核心问题在于高性能光电极的研究。光电极既要拥有合适的能带结构来捕获更多的太阳光,同时要在纳米尺度上调控光电极的微观结构来优化其电荷传输和表界面反应行为,从而构建高效光电分解水体系。原子层沉积(ALD)是近些年来发展起来的一种新兴的薄膜制备技术。由于其自限制性表面反应,ALD技术能够精确控制薄膜的厚度和组分,有望应用于高效光电极的构筑。本论
学位
伴随着智能手机的普及,社交平台也不断深入群众日常生活,产生了大量的用户流量,并催生了一批新的互联网交易模式。由于微信平台兼具了普及性最广的支付功能,C2C微商模式交易成为其中的典型代表。然而,现行法律的粗疏和零散导致C2C微商市场之监管力有不逮:信用风险、质量问题、消费者维权困难等问题频繁发生。由是,本文从C2C微商模式的概念进行解析,对C2C微商模式的风险特质进行总结,发现单纯依赖市场自治不能实
学位
对钢筋混凝土(RC)框架结构附加摇摆墙能有效抑制结构薄弱层的产生,改善结构的抗震性能。传统的整片墙体设计导致摇摆墙的弯矩在墙体中部达到最大,本文设计了一种分段自复位摇摆墙,通过在摇摆墙中部加设一个摇摆面来有效减小墙体中部的弯矩。本文通过ABAQUS软件细致研究了该类墙体自身的受力性能,对比了分段和整段摇摆墙在RC框架上的运用效果,研究表明对摇摆墙进行分段能有效降低地震中摇摆墙的内力,减小整体结构的
学位
“三全育人”是高校全面落实立德树人根本任务的重大举措,亦是高校完善就业育人机制的内在要求。结合上海旅游高等专科学校的实证案例,从教育主体、教育客体、教育理念、教育内容及教育载体五个维度探索思想政治教育融入大学生就业指导教育的实践路径。以全过程引导为指引,以全方位建设为目标,以全员化参与为导向,探求思想政治教育融入大学生就业指导教育的系统路径、统筹路径、协调路径。
期刊
随着我国经济的快速发展,配电现场带电作业已经成为必不可少的技术手段,同时也使配电现场作业人员的人身安全存在风险。近年来,采用有限元分析方法对配电现场危险区域进行研究,已成为相关领域的研究重点,并有效提高作业安全性。本文在分析了有限元法(Finite Element Method,FEM)和电磁场危险区域形成原理的基础上,通过有限元仿真软件Ansoft Maxwell计算高压配电现场及人体的电场分布
学位
民生财政支出效率的提高不仅有利于政府更好地解决民生问题,还能够缓解政府财政资金压力,因此有关民生财政支出效率的研究具有重要意义。政府审计作为国家监督体系的重要组成部分,通过发挥揭示、抵御与预防的“免疫系统”功能服务于国家治理,提高政府管理绩效。近年来,我国政府审计重点越来越偏向民生领域,政府审计对维护我国政府民生财政支出效率所发挥的作用也正在增强。同时,我国治理模式正逐步由政府独立承担转向政府与公
学位