科技文献中短语级主题抽取的主动学习方法研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:wujunming123123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]在标注语料匮乏的情况下,利用主动学习策略,探索科技文献信息抽取的有效解决方案.[方法]设计一种融合主动学习的神经网络模型架构,将三种代表性的主动学习策略(MARGIN,NSE,MNLP)和新提出的LWP策略与神经网络信息抽取模型(CNN-BiLSTM-CRF)结合,研究适用于标注语料匮乏的任务驱动型信息抽取方法.[结果]在主动学习引导下,仅选择性标注10%~30%数据,即可达到神经网络模型训练100%标注数据的效果,可大大降低标注语料库构建过程中的人力成本.[局限]人工智能领域科技文献数据集规模小、噪声多,信息抽取模型的精确率低.[结论]主动学习策略指导下的神经网络模型,大幅缩减了所需标注语料库的规模.对比4种主动学习策略发现:MNLP策略显著优于其他策略;MARGIN策略在初始迭代阶段表现优异且能辨别出低价值的实例;基于句长规范化的MNLP策略能促进模型的稳定性;LWP适用于语义标签占比大的数据集.
其他文献
[目的]通过新闻热点话题检测技术提取热点新闻话题,减轻用户的新闻阅读压力.[方法]在TF-IDF方法基础上,通过均衡段落的位置加权方式(WTF-IDF)进行关键词提取;将K-means聚类作
当“有所为,有所不为”的调整国民经济布局的战略方针在去年9月中旬的中共中央全会上确立之后不久,有关减持国有股的相关政策亦相继出台,这就是:国有股减持将通过配售方式实现。从
[摘 要]客观分析了《风景园林规划设计》课程在市场经济发展中的地位以及该课程在目前教学当中存在的问题,提出了适时在教学过程中采用研究型教学模式,加强实习实训基地建设与使用,校企合作的定岗实习等有利于学生创新意识和能力培养的新的教学方法和手段。  [关键词]风景园林规划设计 研究型教学模式 实习实训基地建设 顶岗实习  随着人民生活水平的提高,以及对和谐生态环境的渴望,给景观园林规划设计行业提供了很
讨论会于1972年6月6~8日在美国旧金山召开。主要讨论题目有:固态显示技术、显示控制台、等离子体显示、显示终端用的软设备(即计算机的程序之类)、液晶显示器、阴极射线管器
[摘 要] 将一个大系统电路以功能单元化进行分块焊接与调试的方法,使操作者边练习焊接边分析电路原理,可以将理论与实操有相结合起来。操作者首先分析大系统电路功能,将其以功能化分成若干块小电路来焊接与排障,一般按供电电路先行,其次按信号流程逆向进行,比如:后级输出电路(大信号电路)、中间放大电路、信号输入电路(小信号电路),最后整机联合调试。如果某块电路出现故障时,可以针对此块电路进行独立功能分析,
校园文化是指在一所学校内,经过长期积淀形成的,以师生为主体创造并达成共识的,由价值观念、办学思想、群体意识和行为规范等构成的价值体系,是一所学校独具的精神与氛围的集
[目的]为保护临床文本中的隐私信息,有效地从非结构化文本中识别受保护的健康信息(PHI),提出利用BiLSTM-CRF模型从临床记录中删除隐私信息的自动化方案.[方法]选择一家区域卫