【摘 要】
:
文本分类问题是自然语言处理的核心研究方向之一,其中又以多标签文本分类(MLTC)任务最为重要,且最具有挑战性。多标签文本分类在信息检索、推荐系统、用户画像等领域有着广泛的应用,在不同场景中,其数据的特征往往各不相同,因此又进一步增加了多标签文本分类任务的难度。在多标签文本分类问题中,一个样本对应多个标签,这些标签之间通常都存在某些内在的联系,早期的文本分类任务通常是基于传统的机器学习模型来完成,然
论文部分内容阅读
文本分类问题是自然语言处理的核心研究方向之一,其中又以多标签文本分类(MLTC)任务最为重要,且最具有挑战性。多标签文本分类在信息检索、推荐系统、用户画像等领域有着广泛的应用,在不同场景中,其数据的特征往往各不相同,因此又进一步增加了多标签文本分类任务的难度。在多标签文本分类问题中,一个样本对应多个标签,这些标签之间通常都存在某些内在的联系,早期的文本分类任务通常是基于传统的机器学习模型来完成,然而传统方法倾向于忽略标签之间的内在联系。随着深度神经网络的发展,一些基于深度学习的序列到序列(Seq2Seq)和序列到集合(Seq2Set)的模型纷纷应用在了多标签文本分类任务中,而这些模型也发挥出了出色的性能。然而,针对序列到序列(Seq2Seq)的模型来说,其引入了标签顺序这一干扰因素,而在实际任务中,标签应该是无序的集合,而不应该是有序的序列。对于序列到集合(Seq2Set)的模型来说,其预测的结果又缺乏可解释性,即模型并不能很好的解释分类后的每一个标签具体应该对应样本中的哪一句话或哪几个词。针对现有方法存在的不足,本文提出了一种新的算法框架,并将其命名为TC-SRM,该框架将多标签文本分类任务建模为文本序列化阅读的过程。该框架包括三个核心部分:文本特征抽取模块、深度强化学习模块以及标签间关联关系学习模块。在文本特征抽取部分,本文探索了多种不同的文本向量化表示的方法,并最终选取了实验效果最佳的多头注意力机制应用在我们的框架中;在深度强化学习模块,本文使用了Deep Q-Learning(DQN)算法实现文本的序列化阅读和决策过程;在标签间关联关系的学习部分,本文通过将智能体(Agent)的历史动作信息编码进环境状态(State)中,让算法学习到标签之间的关联关系。本文将该算法框架应用在了民间借贷相关的法律类案检索系统中,在与传统算法的对比中,TC-SRM模型在准确率和效率上的表现更好。最后,本文还对TC-SRM模型进行了改进,以期将本文提出的算法框架应用在更多的领域中。本文提出的算法框架已经作为开源工具发布使用。
其他文献
英语写作是动态的,连续性的,是一个处于不断再生产的过程,势必触及写作者复杂的情感活动。作为个体重要的情感因素,自我效能和焦虑贯穿于英语写作的各个阶段。其中,写作自我效能体现了写作者对自身写作信心的强弱程度,写作焦虑反映了写作者在写作中自我意识、思想、情感、行为的变化,两者相互作用,共同影响写作者的写作进程。本研究在自我效能理论和情感过滤假说的指导下,采用问卷调查法和访谈法,以汉中市某县级高中304
MADS-box基因家族是一类转录调控因子,影响植物各个生长发育的环节,尤其是对花器官发育的调控。随着对拟南芥、金鱼草等模式植物的MADS-box基因研究的深入,已经得知一些该类基因的作用方式,被子植物花发育的ABCDE模型就是其中之一。黄瓜是重要的园艺作物,其产量受到国内外广泛关注。黄瓜的性型直接关系到其产量,仅雌花或者两性花可以发展成果实。黄瓜中的MADS-box基因可以直接或间接影响黄瓜雌雄
海洋藻类是海洋初级生产力的主要贡献者,其种类繁多、分布广泛。海洋红藻富含琼脂糖、卡拉胶等多种多糖,广泛应用于农业、生物医药、食品、制药和能源行业等多个领域。海洋细菌在海洋藻类多糖的降解及循环中发挥重要作用。最近,海洋细菌降解红藻单糖主要组分——3,6-L-内醚半乳糖(L-AHG)的代谢途径被报道。但是,关于海洋细菌利用L-AHG的分子机制还不清楚。本文中,我们系统研究了海洋弧菌Vibrio var
通识教育课程目标与高等教育培养目标存在紧密的联系性,即通识教育是高等教育人才培养的重要组成部分,对培养积极参与社会生活、有社会责任感、全面发展的社会的人和国家的公民起至关重要的作用,且外语类院校通识教育是外语人才培养日益重要的组成部分。学习动机是维持学习者学习热情、保证学习者时间精力投入、决定学习成败的重要情感因素,也是促进通识教育课程成功的重要因素之一。积极的学习态度和学习动机能够促进通识教育课
本文在进行文献分析的基础上,主要通过课堂观察,问卷调查、访谈和质性研究的方法分析志愿者教师课堂管理用语的使用现状及出现的问题和成因,最后,基于蒙古国汉语教学的现实条件就如何提升课堂管理用语的有效性,合理性、得体性提出一些建议。论文主要分为五个部分,第一章是选题缘由和意义;第二章对相关文献进行综述;第三章通过对蒙古国中小学汉语课堂的观察,总结出目前汉语教师课堂管理用语使用中存在的突出的问题,并进行分
谷子、荞麦籽粒的粒径小、种植面积少,被定义为杂粮小籽粒谷物。谷物在播种机、联合收获机等机械设备中,会受到相关零部件的外部载荷而造成籽粒的损伤与破裂。因而需要掌握谷子、荞麦籽粒在受到外部载荷的情形下,籽粒群所表现的力学特性。本文从谷子、荞麦籽粒在机械化播种、收获、运输等生产过程的实际情况出发,对谷子、荞麦籽粒的基本物理参数和籽粒群力学特性进行试验研究。(1)首先测定了谷子、荞麦籽粒基本的物性参数包括
乡村教育是中国教育发展进程中薄弱的一环,解决乡村地区教育问题不仅是实现乡村振兴的关键所在,也是推动我国教育事业整体发展的重要环节。近年来,随着国家对乡村学校的重视和投资力度的加大,乡村地区教育硬件设施已相对完备,但师资质量仍有较大的提升空间。对于位处我国偏远西部的鄂尔多斯乡村地区更是如此,该地区的乡村初中学校数量有限,基础薄弱且发展缓慢。教师管理能力作为教师专业能力中的一项重要组成部分,很大程度上
在课程改革背景下,幼儿园的课程建设变得更加重要,这也是提升学前教育质量的关键,而决定幼儿园课程建设的核心是幼儿教师的课程素养,课程领导所关涉的内容恰恰是幼儿教师课程素养的核心。在幼儿园课程园本化、生活化发展中,更需要基层幼儿教师贡献个人经验、发挥创新价值,但多数基层幼儿教师缺乏领导意识和领导能力,不利于推动幼儿园课程改革。对此,此研究重点探讨了幼儿园教师课程领导的内涵,调查并分析教师课程领导现状,
绩效考核对于今天的中小学管理而言,是一项重要的工作。因为教师绩效考核能够促进学校教学质量提升和教师专业能力的提升。但是目前学校的教师绩效考核制度存在诸多问题,如缺乏定量分析、绩效考核指标不科学等,这些都影响了学校对教师的实际管理效果。而关键绩效指标(KPI)法恰恰解决了以上问题,关键绩效指标(KPI)利用定量分析对教师工作的关键指标进行测量,不仅与教师绩效工作较复杂无法全部定量测量的性质契合,而且
当前,互联网、大数据等信息技术在教育系统的运用日益频繁,“云课堂”、“直播课堂”等新型授课模式对于教师与学生也不再陌生。教学技术的迭代、教与学方式的转变都在促使教师专业素养不断地更新与提升,面向教育现代化的教师需要的是促进信息技术与学科知识教学深度融合的能力,英语学科教师同样需要具备这种能力。对于师范生来说,信息化教学能力更是关系到其未来的教师专业化成长,但是当前师范生信息化教学能力情况不容乐观,