基于深度学习的文本表示和分类研究

来源 :北京邮电大学 | 被引量 : 13次 | 上传用户:zqszc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本表示是自然语言处理(Natural Language Process,NLP)领域的关键技术,文本表示的质量往往对现代基于深度学习的NLP系统产生至关重要的影响。传统的NLP系统多基于特征工程实现,需要专家定义特征并撰写特征抽取器,有效特征往往难以定义且实现复杂。深度学习技术的发展为NLP带来了重大技术突破,基于深度神经网络的方法可以从数据中自动学习文本的特征,不仅工程量极大地减少,往往分类效果也更具优势。随着神经网络的结构变得更深更复杂,情感分析、主题分类等文本分类任务的瓶颈得以不断突破。虽然加深神经网络的深度可以获得更强大的函数逼近和数据拟合能力,即表达能力,但是目前没有工作表明模型的表达能力与模型的语义鲁棒性是否存在相关性。此外,以词向量为代表的预训练语义表示模型往往可以提升下游NLP任务的表现,现有的对上下文无关词向量的迁移策略的研究仍然比较初步。由此,本文对基于神经网络的模型的语义表示鲁棒性和词的迁移学习策略进行深入研究,具体如下:文本语义表示能力与文本分类性能的相关性研究。本文从信息缺失和噪声冗余两个角度给出语义鲁棒性的定义,提出一种可靠的语义评价模型RAcc(Robust Accuracy),弥补了传统分类评价指标无法评估模型稳定性的缺陷。基于RAcc模型,本文重点研究深度神经网络模型的表示能力与分类性能的相关性,实验结论揭示了现有表示和分类模型的局限性,为文本分类等NLP问题的研究提供启示。词向量的迁移学习策略。从海量的通用语料中预训练词向量,并迁移到下游分类任务中可以提升系统的性能。现有的研究往往使用词向量随下游模型联合训练的微调策略,来使得预训练的词向量模型更好地适配下游任务。本文指出该策略并不能总是带来预期的性能提升,却可能极大地增加训练资源开销。对此,本文首先为该策略建立一种称为“3-signal”的理论模型,解释该策略理论上存在的局限性,而后提出两种更高效的迁移学习策略Scaling和Lin-trans。实验表明本文提出的方法在分类任务上不仅可以带来显著的性能提升,并且在RAcc评测下表现出更强的语义鲁棒性。
其他文献
中国特色生态文明理论是体现时代精神的马克思主义中国化的最新成果之一,深化了人类对社会主义基本价值,社会主义本质的认识,具有鲜明的时代特色、实践和创新价值,是对国际生
2016年全国硕士生统一入学考试又曝出泄题丑闻。在"作弊入刑"的高压之下,泄题丑闻为何会再次发生?本文对此进行了剖析,指出要堵住泄题漏洞,必须完善问责机制,建立重考制度和
本研究以真空包装的冷鲜牛肉中常见的假单胞菌、乳酸菌、肠杆菌以及热杀索丝菌为对象,研究其与冷鲜牛肉腐败品质指标的关系,用皮尔逊相关系数来反映两者之间的相关性.结果表明:乳
任何一个汽车企业都面临着极其复杂的环境,汽车企业出现公共关系危机的可能也在不断增大。所以,作为中国汽车企业应该重视企业的危机管理。
在哲学发展史上,人们对于主客体关系的把握经历了漫长的认识过程。文章以历史发展为线索,论述了主客体关系在哲学视野下的嬗变过程:从原始时代的主客体浑然一体到古希腊哲学
急性胰腺炎是常见危重疾病之一,并发症多,死亡率高,仍然是临床上的一大难题.生长抑素(somatostatin,SST)是一种广泛分布于脑、胃肠道、内外分泌腺等组织的环状多肽,具有多种
《上海堡垒》8月9日公映,4天后票房过亿。如果这是部文艺片或者低成本商业片,过亿票房还算不错,但在公映之前,《上海堡垒》是部用来对标《流浪地球》的科幻电影,甚高的期待与豆瓣3
报纸
昆剧表演艺术家刘异龙,人称江南名丑。他在昆剧表演艺术上唱念俱佳,文武兼备,诙谐风趣.嬉笑怒骂皆能入戏,在中国昆剧界首屈一指。 刘异龙是上海市戏曲学校首届昆曲班毕业生,
随着全球制造业(Global Manufacturing)的出现,供应链在制造业管理中得到普遍的应用,成为一种新的管理模式。特别是进入21世纪以来,随着世界经济的飞速发展,全球数字化、网络
"教学做合一"是陶行知的教学思想。教与学都以"做"为中心。生物科学是一门实践性很强的科学。我们坚持"教学做合一",在"做"上教,在"做"上学,在劳力上劳心,坚持课外实践,促进"