基于开放世界假设的文本分类关键技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:shmilyxin2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类技术是对海量文本进行组织、管理的一种方式,具有广泛的应用场景。传统文本分类技术建立在封闭世界假设之上——即假设所有文档均属于预定义类别,而现实复杂应用场景大多不满足封闭世界假设,在现实应用场景下可能有新类别的样本出现。在这类应用场景,直接应用传统文本分类技术可能造成隐患。基于开放世界假设的文本分类任务要求分类系统检测出未知类别样本并自动地对这些未知类别样本进行标注,进一步将新类别的样本整合到现有分类器,增强模型的分类能力。本文主要研究基于开放世界假设的文本分类任务中的两个关键任务,“未知类别检测”和“新类别发现”。针对“未知类别检测”任务,本文提出了一种基于开放世界假设的文本分类精炼特征学习模型。现有算法根据最小化已知类别多分类损失的目标进行特征学习,所学习到的特征仅仅对于已知类别有区分度,很难对已知类别和未知类别有区分度,进而在该特征空间中难以区分已知类别样本和未知类别样本,导致未知类别的识别率降低。本文提出的模型通过以已知类别的类别描述特征为原型引入外部知识,以原型损失的方式参与模型训练过程,借助人类对已知类别的丰富知识,提取了已知类别的显著特征,提高了模型对未知类别和已知类别样本的识别率。针对“新类别发现”任务,本文提出了一种基于二分类交叉熵损失的新类别发现算法。现有新类别发现算法采用聚类算法发现新类别,因此在特征空间中类内相似度应该大于类间相似度。然而现有算法的模型训练任务目的是学习类别线性可划分的特征表示,类内相似度可能小于类间相似度,因此现有模型样本聚类效果较差。本文提出的新类别发现算法通过最小化二分类交叉熵损失作为模型训练优化目标,进一步增大特征空间中类间差异性以及类内相似度,从而提高聚类算法在该特征空间的聚类效果;该算法采用了聚类效果最先进的聚类方法FINCH代替KMeans算法,进一步提高了新类别样本自动化标注质量。
其他文献
人工合成可降解材料聚乙烯醇(PVA)具备良好的物理性能,广泛应用于纺织、纸张制造、建筑化工等领域。但聚乙烯醇在自然环境中无法完全降解,大量聚乙烯醇在水体中累积,其表面活性大,导致水体粘度变大,泡沫增多,水中溶氧下降,抑制了水体中需氧生物的生长,严重污染了生态环境。因此如何高效降解聚乙烯醇是一个亟需解决的重要课题。目前应用微生物降解聚乙烯醇的研究主要集中在细菌上,应用真菌的相关报道较少。本课题组在前
学位
茶叶以其文化性和保健功能在中国悠久的文化历史长河中有着不可撼动的地位,随着人们消费水平和生活水平的提高,对茶叶的消费需求也越来越大。从国家对茶叶市场的相关政策和茶行业本身的发展来看,茶行业目前正处在发展的黄金战略时期。但是传统茶馆行业的服务现状已经不能满足目前茶馆的消费者和潜在消费者的需求,随着5G时代的到来,对传统茶馆行业进行服务模式的改良和智慧化的转型是传统茶馆发展现阶段的重中之重。本课题通过
学位
本体是一种强大的语义模型,它可以应用于许多应用场景下。如提高系统互操作性、用于信息检索、实现机器问答系统等。然而,通过人工进行领域本体的建模任务仍然是一项艰巨的任务。特别是当领域内的概念和属性的数量巨大,领域不断新增的概念,或者面对大规模的无结构的文本数据时,人工搭建领域的本体就会变得非常困难。目前有许多研究者通过机器学习算法来实现从文本中自动或者半自动学习本体。特别在对于概念构建任务上,一些聚类
学位
背景:人表皮生长因子受体(Human epidermal growth factor receptor,HER/Erb B)家族包括HER1(EGFR)、HER2(ERBB2)、HER3(ERBB3)、HER4(ERBB4),在肿瘤的形成和生长中发挥了重要的作用。许多研究已表明ERBB3基因突变可通过激活PI-3K/AKT信号通路,对HER2阳性乳腺癌的治疗产生耐药作用。然而,目前ERBB3基因突
学位
威廉斯综合症(Williams Syndrome,WS)是一种危害严重的罕见遗传综合症,依据特征性面容对就诊患者进行初步筛查,能够避免了不必要的基因检测,更具有目标性。然而,由于该病表型复杂多变,对诊疗经验要求高,该病易于漏诊误诊。近年来,人脸识别技术已经应用于遗传综合症辅助诊断,但存在两个主要问题。第一,目前威廉斯综合症人脸识别模型研究主要以白人儿童人脸数据研究为主,针对我国儿童的相关数据和方法
学位
我国经济社会日益增长,城市出行交通需求激增,轨道交通所起的作用越来越突出。随着不断攀升的客运量,城市轨道交通的能源消耗快速增长,能源消耗支出占总运营成本的比重不断上升。通风空调系统是轨道交通的一项重要组成,负责轨道交通车站内部的温度、湿度、品质(包括CO2浓度、粉尘浓度等)、流速以及压力监控调节的任务,传统的轨道交通车站通风空调系统存在运行能耗高的突出特点,约占运行总能耗的40%。采用自适应控制技
学位
李汝珍在小说《镜花缘》中构建了一个理想的世界,女性拥有独立的经济地位,有与男子平等的参政、教育权利,这与明清之际社会经济的发展、女性意识的觉醒以及李汝珍的人生经历密切相关。虽然李汝珍不能完全突破时代的局限,其思想也不可避免地带有男权色彩,但是他对女性的肯定使他在中国文坛上占有一席之地。
期刊
李汝珍《镜花缘》中的女性主题历来备受关注,但单独讨论性别很容易为现代观念所束缚。这部小说创造性地将女性形象置于国家的视野中加以呈现,“女儿国”的构想既作为乌托邦,又作为国家实体而存在。从女性与国家权力的关系入手,可以更全面地理解小说的话语结构。海外女儿国的性别身份秩序建立在与他国的对照中,结构性的男女对立在这里被表现为直接的暴力。天朝女君武则天既是女性权益的保护者,又是颠倒阴阳的暴君,以她为核心的
期刊
2011年中央一号文件《关于加快水利改革》提出“继续推进生态脆弱河流修复,加快污染严重江河湖泊水环境治理”以来,全国各地都在开展水环境治理工程建设,从黑臭水体整治、国考断面达标整治,到生态水利建设、建设生态绿廊,各地各部门都在如火如荼的开展“治水”工作,其中水质目标的实现与否是水环境治理工程成效的重要衡量指标。水质目标的实现过程存在诸多风险(如资金筹措风险、技术方案合理性风险、征地拆迁风险、社会影
学位
电网输变电工程属于特殊的基建工程,项目的建成可以满足用电负荷增长的需求,提高供电可靠性。但这种宏观方面的成效通常并不能给大众带来直接利益,从而导致部分输变电工程的建设很难被公众理解,尤其在土地征拆、青苗赔偿、电磁环境影响等方面存在社会稳定风险问题。如何使得输变电工程社会稳定风险分析更加客观有效,从而针对相关风险进行控制,是保障输变电工程顺利进行中亟待解决的问题之一。目前输变电工程社会稳定风险评估工
学位