基于CNN和BiLSTM-CRF的自动填表研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:moon_pine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究自动填表理论和开发自动填表系统是时代发展进步的迫切需要。事实上,在各行各业的日常办公活动中,几乎每天都伴有大量的填写表格工作。习近平主席在中国科学院第十九次院士大会、中国工程院第十四次院士大会上的重要讲话中,明确指出不能让报表把科学家的精力耽误了。本论文响应习近平主席的号召,顺应适应时代发展进步,对自动填表进行了深入研究。传统的手工填表方式耗费大量时间、效率低且容易出错。互联网技术的快速发展改变了人们的生活方式。大量的个人信息已经存储在网络或非纸性介质上。本论文研究如何将深度学习的原理、方法和技术应用于个人信息数据的挖掘,获得自动填表所需要的有用信息数据。主要贡献有:(1)建立了一个可用于研究科学家的个人学术信息分类和实体抽取的数据集。目前在科学家的个人学术信息分类和挖掘领域,研究者较少,且没有公开的数据集。本文从百度百科、学者网、百度学术等网站爬取了两万多条数据,并将这些数据手动进行标注。(2)针对基于词向量的分类方法不能有效捕捉到字与字之间的联系,本文使用字符级别卷积神经网络模型。通过实验,选取了字符级别的RNN、RCNN、Fast Text等模型进行试验对比,使用不同的参数进行训练,实验结果表明本文使用的字符级别卷积神经网络模型取得了更好的结果。(3)由于直接分类得到的仍然是网络中的信息,属于用户输入信息,这种信息或多或少都存在冗余或者错误。而且,不同用户之间填写风格差异巨大,数据格式不统一,不利于进一步挖掘信息。为此,接下来使用一种基于预训练词向量的双向长短时记忆网络结合条件随机场的方法进行了细粒度的实体抽取。在对比试验中,使用了常见的RNN、LSTM和BiLSTM等模型进行对比。实验结果表明本文使用的基于预训练词向量的双向长短时记忆网络结合条件随机场模型能取得更好的表现。(4)构建了一个自动填表系统,从网络采集数据,然后用于科学家的个人学术信息自动填表,有效提高了办公效率。在这个自动填表系统中,能够对所有数据进行校正,从而得到更准确的数据,并利用这些数据进行增量训练,让模型具有更好的泛化效果。
其他文献
在文学作品里,常常会出现基于某种地缘而将个人经验扩展开来的地方性抒写,如苏童的“南方”表达,莫言的“高密”之乡,张承志的“荒芜”道路,等等。但笔者认为,如此表达实际上侧重以强烈的个性气质支配地域后转而进行的精神重构,故本文对人与城关系研究的关注之处在于,个体的“缘身”体验将如何揭示出某一个特定的“城市文本”,再者是一座城又是否能成为一则别致的阅读文本从而深刻地影响着它的读者,在此意义上,重新以这读
学位
为了减轻全球生态压力,将环境保护问题控制在可承受范围内,我国对环境保护的重视程度越来越高。生态文明建设是中国特色社会主义事业重大内容之一,需要社会各界的长期不懈努力。河湖保护作为生态文明建设重要任务,不断得到中央和国务院的重视,被列为河湖保护工程的重点。但是,随着中国经济社会的迅速发展,湖泊管理出现了新的问题,如河流干涸、湖泊面积恶化、河湖功能下降等,这对我们的保障水安全工作提出了严重挑战。然而这
学位
世纪之交,“80后”的创作者开始陆续发表作品,随之“80后”集中在文坛爆发式的出现,成为一个文化现象,引起许多学者、批评家的评述。在当下“80后”的写作研究中,已展现不少成果,但以往的研究对于个案的研究分析较为缺乏,其研究结果也大多集中在成名较早争议较大的作家身上,例如韩寒、春树、郭敬明、张悦然等。这些研究成果在一定程度上概括了80后的集体特质,表现了80后一代人的文学现象,但也因此固化了对于“8
学位
教育部印发的《中学教师专业标准(试行)》(2012)对教师个人修养与行为提出了明确要求,指出中学教师应“善于自我调节情绪,保持平和心态”。基于此,越来越多的研究者开始关注中学教师的情绪智力,因为它不仅影响着教师自身的认知能力和内在动机,而且对学生的心理健康和教学效能感也造成了较大的影响。本研究调查了150位高中英语教师的情绪智力与教学效能感的现状,并对两者的关系进行相关分析,旨在从教师情绪视角为基
学位
干旱缺水是阻碍岩溶地区经济发展的重要因素。本文首先介绍了国外碳酸盐岩分布及岩溶水资源的开发现状、潜力和主要开发技术;剖析了美国田纳西流域,欧洲意大利Apulia&Basilicata岩溶区、内雷特瓦河流域等典型岩溶地区水资源开发利用的成功案例,总结出美国田纳西中小流域岩溶水资源综合开发与管理模式、欧洲大流域或跨流域尺度(区域)岩溶水资源协调开发模式、Albero-bello岩溶山区雨水及表层岩溶水
学位
目的 研究思维导图引导多维度阶段式护理干预模式对慢性肾衰竭血液透析患者干预效果。方法 选取2019年1月至2021年12月安徽省亳州市人民医院血透室慢性肾衰竭血液透析80例患者进行研究,采用随机数字表法分为对照组(常规护理)和观察组(常规护理+思维导图引导多维度阶段式护理),各组40例。比较两组并发症发生情况,护理前后生活质量评价量表(SF-36),护理前后心理状态[焦虑自评量表(SAS)、抑郁自
期刊
近年来,国家和地方教育主管部门相继发布了关于高校智慧教学的系列政策后,全国高校开始大规模改造升级现有多媒体教室,进行教学硬件的升级。伴随智慧教学环境的提升及智慧教学模式的改革创新需求,如何科学合理地建设高校智慧教学环境,合理利用智慧教学环境使用过程中产生的录播资源,为促进创新型、复合型人才培养提供个性化学习支持,满足智慧教学和管理需要,提高教学质量,成为高校智慧教学研究的重要课题。本文以郑州西亚斯
期刊
近年来,我国制造业发展面临着激励的国际竞争,以美国、德国、英国等为代表的发达工业国家和印度等发展中国家纷纷掀起“再工业化”浪潮,以确保其在制造业的强国地位。中国政府为了迎接这一挑战和顺应全球产业变革趋势,提出“中国制造2025”发展战略,即在2025年实现由制造大国变为制造强国。核心目标是创新驱动,制造业智能化转型。但我国制造业大而不强,技能人才缺乏,年轻劳动力短缺,技术工人年龄结构断层。因此,培
学位
传统的书面考试仍然是现代教学中使用范围最广的一种考察形式,试题类型可分为客观题(诸如,判断题、填空题、选择题)和主观题(诸如,作文、简答题)两种。其中,由于客观题答案唯一确定,且考察的知识点较少,评分相对简单;相比之下,主观题答案开放程度更高,且考察的知识点更多,评分相对困难,目前仍以人工评分为主。然而,采用原始的人工评分方法不仅极易受到(诸如,学生字迹是否优美清晰,卷面是否干净整洁,以及教师当下
学位
报纸