【摘 要】
:
近年来,随着互联网的普及,互联网文本信息也在快速增长,这些文本信息中蕴含着大量对人们有价值的信息,如何有效地组织、整理这些信息逐渐成为学术界关注的焦点,文本分类一直是挖掘文本信息的重要技术手段。当今互联网文本结构复杂、种类繁多,多标签文本分类已经成为研究的热点。然而传统多标签文本分类算法大多忽略标签的语义信息,或者对标签的语义信息利用不充分。因此,本文在多标签文本分类模型中嵌入标签语义信息,引入胶
【基金项目】
:
国家自然科学基金青年项目(61902106); 天津市自然科学基金项目(19JCZDJC40000);
论文部分内容阅读
近年来,随着互联网的普及,互联网文本信息也在快速增长,这些文本信息中蕴含着大量对人们有价值的信息,如何有效地组织、整理这些信息逐渐成为学术界关注的焦点,文本分类一直是挖掘文本信息的重要技术手段。当今互联网文本结构复杂、种类繁多,多标签文本分类已经成为研究的热点。然而传统多标签文本分类算法大多忽略标签的语义信息,或者对标签的语义信息利用不充分。因此,本文在多标签文本分类模型中嵌入标签语义信息,引入胶囊网络,对文本进行特征提取并最终实现分类。主要工作如下:(1)针对传统多标签文本分类模型忽略标签语义信息,以及以往标签信息嵌入模型对文本特征提取不充分,丢失文本特征信息的问题,提出一种基于标签语义信息嵌入的多标签文本分类模型(Label Embedding Multi-label Text Classification,LEMLTC)。利用BERT(Bidirectional Encoder Representations from Transformers)将待分类文本和标签集合中的单词嵌入成低维向量,生成文本嵌入矩阵和标签单词嵌入矩阵,并计算标签单词与文本单词的语义相似度,生成注意力向量为文本嵌入矩阵加权,确保相关单词的权重比不相关的单词高。在公开数据集AAPD、BGC和Reuters-21578上设计并实现了多种模型对比实验、不同标签结构复杂度下的分类性能测试实验和消融实验,还随机抽查了一些标签的F1值。结果表明,LEMLTC模型在一定程度上提高了多标签文本分类的精度。(2)加权后的的文本嵌入矩阵含有大量的原始文本特征信息,在LEMLTC模型的基础上引入胶囊网络,提出基于标签信息嵌入的胶囊网络(Label Embedding Capsule Network,LE-Cap Net)模型。在LEMLTC模型的基础上对文本特征做进一步提取,并通过胶囊网络独有的动态路由机制生成分类胶囊,用分类胶囊的模代表该文本包含对应标签的概率,实现多标签文本分类。通过与LEMLTC模型以及其他常用模型的对比实验验证了LE-Cap Net模型的有效性,相对于其他模型具有更好的分类效果。本文综合分析了传统多标签文本分类模型的优缺点,针对不足之处提出LEMLTC模型和LE-Cap Net模型,并通过实验验证了这两个模型在多标签文本分类任务上的优越性。
其他文献
美国自然资源损害赔偿制度与我国的生态环境损害赔偿制度相对应,其脱胎于普通法中的侵权法,在实践中逐步走向成文法体系。美国《清洁水法》《综合环境反应、补偿和责任法》和《油污法》等法律克服了侵权法的局限性,建立了完备有效的自然资源损害的评估和救济机制。借鉴美国相关立法中关于自然资源损害赔偿的权利主体、赔偿范围、损害评估规则等规定,有助于突破我国传统侵权法对生态环境损害赔偿的拘束,在索赔主体、赔偿范围、损
近几年,电动汽车和其他能源领域的电池中使用最广泛的是锂离子电池,其健康状态(State of Health,SOH)是评估电池老化程度的重要性能指标,直接影响了应用中的安全可靠和经济问题。然而,一方面锂离子电池退化呈复杂非线性变化,另一方面电池在使用过程中,可直接监测的只有端电压、电流和温度等较少的参量,其不能直观的反映出电池的SOH或性能退化程度。基于此,本文以锂离子电池为研究对象,通过分析全寿
<正>北京市重点火车站及站区作为大型综合交通枢纽,在首都“四个中心”建设中,既是对外交流的门户,又是展示首都文化的窗口,还是全国各地旅客进京的第一印象。但是目前这些区域普遍存在历史文化底蕴缺乏展陈和表达,公共文化服务设施匮乏,文化活动较少,缺少文化消费新业态,与周边文旅资源联动不足,文化传播力度不够等问题。现基于站城一体化理念,在剖析原因、阐释文化建设必要性的基础上,探索以公共文化空间展示彰显历史
风机齿轮箱传感器健康状态综合评价方法在风场运维、安全效益、检修安排等方面具有重要的意义。本文依托华北某风场的SCADA数据,从故障诊断、故障数据重构、健康度量化三个方面,定性和定量的对风机齿轮箱传感器健康状态展开研究。针对传感器故障诊断的问题,首先,分析了风机齿轮箱传感器不同故障类型的特点。然后,根据故障特点改进了排列熵,提出了经验多尺度方差排列熵的故障特征提取方法,解决了排列熵只能提取局部结构信
专利开放许可制度起源于英国,因实施效果良好而为他国移植或借鉴。为了促进专利的实施与运用,我国2020年修订的《专利法》也在“专利实施的特别许可”一章中正式引入了该制度。开放许可制度作为一种新的专利许可形式,目前的适用性研究成果较少,在当前的研究成果中,缺乏对我国开放许可具体实践状况的分析。本文将结合开放许可制度在我国及他国的运行实践对开放许可制度进行解读,并就制度适用提出具体建议。第一部分阐述开放
生态环境综合行政执法的工作从2018年中央发布《指导意见》后,开始逐步地在我国各个地区开展起来。近年来,生态环境综合行政执法进入了一个关键阶段。生态环境综合行政执法权的配置问题承担了举足轻重的作用。虽然实现执法主体精简与整合,有效地提高执法效率,减少执法交叉、执法真空这些都是生态环境综合行政执法改革的优势。但是,新的难题也会在生态环境综合行政执法改革中产生,科学合理地配置执法权是解决产生这些问题的
区域生态环境协同治理是在以自然地理为基础的具有同质性或互补性的整体生态空间范围内,传统不同行政区划的多元主体为解决同一生态空间的环境问题,建构以政府为主导的多元治理主体共同参与、平等协商、形成共识的环境治理模式,并通过一系列政策法律文件深化协同合作的治理方式,共同治理区域生态环境。基于此,区域生态环境协同治理具有治理主体多元化、治理对象跨域性、治理结构网络化等特征。区域生态环境协同治理与传统环境治
在新型城镇化发展的大背景和以绿色发展为核心的城市发展新要求下,高铁综合枢纽带动下的大城市火车站经济圈建设既是带动城市更新改造和引导城市向大都市圈发展的重要路径之一,也是对以轨道交通为代表的高品质TOD发展模式的重要实践。文章以南宁为例,通过梳理城市火车站片区综合开发建设存在的问题和建设困境,从功能定位和开发实施方面提出火车站经济圈建设的对策,以期为其他地区火车站经济圈的发展提供借鉴。
近年来,以德国“工业4.0”为代表的战略规划激发了制造领域的技术革命与竞争,引起世界各国的高度重视,中国也提出了《中国制造2025》推进工业化与信息化的深度融合。随着工业物联网、工业互联网技术的发展,使得获得大型设备的运行状态数据越来越容易,因此如何利用机器学习等方法对运行状态数据进行分析,从而实现故障诊断和故障预测逐渐成为研究热点。随着海量状态数据的产生,传统的故障诊断方法难以高效挖掘新增数据中