基于深度学习的文本质量分类研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:liongliong507
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维基百科是人类大型的知识库,是现代人获取信息的在线资源,但一度受到质量水平的质疑,日益增加的条目,日益频繁的编辑,人工评审将不符合实际。如果没有得到适当的监控和修改,可能会导致低质量文章(甚至错误信息)的产生。关于质量问题,每年有数百万的大学生、研究生毕业,论文的质量参差不齐,高校对于毕业生的论文也提出了越来越高的要求,应届生的论文在提交之前如何做到有效监控和修改,毕业论文这种长文本的自动质量分类,也是一个具有挑战的任务。在长文本质量分类领域,本文中利用深度学习方法实现文本质量自动分类,主要研究了英文维基百科条目、中文维基百科条目、硕士毕业论文,主要工作开展如下:1.针对交叉熵只关注分类正确的类别的问题,本文提出了改进的交叉熵函数,可以让模型更好地拟合数据分布。2.针对英文维基百科条目文本质量分类问题,本文提出了Att-LSTM自动分类方法,该方法是端到端的,没有特征工程的方法。在文本质量6分类对比试验中,准确率由69%提升到71%;同时将数据类别处理为3个大类,通过对比试验,得出注意力机制可以代替一些手工特征的结论。3.本文扩展了中文维基百科数据集,并提出了一个适用于中文维基百科文本质量自动分类的方法——MulCNN-LSTM。4.收集了大量硕士毕业生论文,按照已经公布的数据将其划分为优秀、正常、延期三个质量等级,针对毕业论文这种长文本,本文设计了基于章节的全篇章的文本质量分析方法ChapterLSTM,通过大量试验,验证了其模型的可靠性与有效性,该模型的F1值达90%,比目前最好的模型提升了15%。5.最后,基于篇章的全篇章的文本质量分析方法设计了一个毕业生论文质量评估系统,该系统采用目前主流的前后端分离的方式进行开发。
其他文献
化学实验中经常要涉及气压问题,通过对气密性的检验,倒吸、喷泉现象的分析,气压过大的防止,某化学实验中具体问题的分析,激发学生的思维活动,使分析气压的改变对化学实验多方
随着人类生产技术的发展和社会化组织分工的不断进步,世界各国发展农业的基本思路也发生了巨大的变化,其背后体现出截然不同的境界。  四个时期  第一个时期为幼年期,农业生产的基本目标是:高产。  在人类社会漫长的进化过程中,世界各地的不同部落和后来的世界各国都一直在为了“食可果腹”而“与天斗”、“与地斗”和“与人斗”。所以,在人类历史的绝大多数时间里,农业生产的目标都是减少环境胁迫因素的影响而获得“高
本文在学习和理解<普通高中英语课程标准>的基础上,就&#39;任务型&#39;教学的任务设计、任务选择、任务执行等问题进行了一些理性思考,旨在提出任务设计要坚持从实性、任务选
在拓扑绝缘体表面上放置一块铁磁绝缘体,由于磁近邻效应,将会产生一个交换场,即形成一个铁磁垒。本文利用传递矩阵的方法研究了在拓扑绝缘体表面上,单铁磁垒和双铁磁垒的电子输运
“升肝气”一法,历来对此所论不多,即偶有涉及,皆未详论。故医者大多只知有疏肝法、舒肝法、补肝法等.而不知升肝法,只知补肝气.而不知升肝气,故本文对“升肝气”一法提出进一步探讨
税务稽查是税收征管工作不可或缺的一部分。税务稽查是由税务稽查局对纳税人、扣缴义务人和其他涉税当事人税法遵从度进行的一种监督检查,被喻为悬在“纳税人头上的一把利剑”。税务稽查的基本任务是依法查处各类税收违法案件,维护公平的税收秩序,提高纳税遵从度。随着税收征管体制改革的不断推进,国家税务总局大连市税务局稽查局于2018年6月15日正式挂牌成立,由原大连市国家税务局稽查局、大连市地方税务局稽查局整合而
傅里叶变换在科学研究与工程技术中都是一个十分重要的工具,是光学信息处理的基础。分数傅里叶变换作为经典傅里叶变换的推广,已经为光学信息处理带来了极大的方便,而且将傅
2016年,三位科学家因为在拓扑相变领域做出的重大贡献获得了诺贝尔物理学奖,这进一步引起了人们对拓扑材料研究的兴趣,其中拓扑金属及半金属由于其丰富的拓扑相更是成为了研
To prepare and purify the main constituent of Arctii Fructus,arctiin.Methods Extracted with systematic solvents,separated with macroporous resin and purified by
近年来,随着互联网技术的快速发展与广泛应用,电商网站、微博、新闻网站等逐渐成为人们生活中不可缺少的一部分,这些网站通常有着海量的在线用户评论,这些由用户撰写的评论蕴含着巨大的价值,已经成为消费者和相关企业的重要信息来源。由于在线评论具有信息量大、非结构化的特点,文本挖掘技术被用于在线评论的分析。情感分析(Sentiment Analysis)是一种分析在线评论情感观点的文本挖掘方法,主要进行两个任