新时代人民日报分词语料库构建、性能及应用(一)r——语料库构建及测评

来源 :图书情报工作 | 被引量 : 0次 | 上传用户:liboliang1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源.[方法/过程]在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比.[结果/结论]新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长.选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要.
其他文献
大型科学仪器对于国家科技创新具有重大促进作用,仪器高技能人才是保障大型科学仪器平稳运行的关键因素,协助科研人员获得高端科研产出的得力助手。然而,我国迄今还没有制定一套
当前5G站点已经规模部署,TDD系统干扰问题随之而来,严重影响上接入、切换、下行速率等用户感知.本文针对传统的无线网络干扰问题排查效率低下,无法满足快速处理问题的情况,尝
[目的/意义]为了探索危机事件中网络信息表征对用户持续分享意愿的影响机制,通过对网络中不同表征的信息进行分类和定级,对危机信息进行差异化监控与治理,并从信息表征的视角
本文从高校院所科技成果转化活力、科研人员科技成果转化激励、科技成果转化服务体系、政产学研协同创新平台、科技金融等方面,对中关村地区科技成果转化的经验政策进行了总
期刊
[目的/意义]构建微信英语学习平台用户满意度评价体系,分析平台学习功能与用户需求的适应性,旨在为平台服务建设和运营推广提供评价方法和改进建议.[方法/过程]运用模糊层次
本文以哈萨克斯坦两所知名高校为研究对象,通过研究其新闻传播学本科教育的课程设置及专业体系,以期总结出哈萨克斯坦高校新闻传播学本科教育的特点,并通过中、哈比较,进一步
科研论文零被引是科学界中普遍存在且不容忽视的事实,探讨科研论文零被引的影响因素有助于正确认识零被引现象、挖掘零被引论文价值和厘清零被引论文的主要影响因素。现有研究
不同于传统4G网络,5G网络制式更偏向于TDD双工,因此在域同步上提出了更高的要求,需提前关注和研究5G网络特有的干扰问题.江苏联通结合现网实际情况,研究大气波导干扰的高效规
今年是中国科学院文献情报中心(以下简称“中心”)研究生教育创立40周年.10月21日上午,由中国科学院文献情报中心、中国科学院大学经济与管理学院主办,中国科学院文献情报中
期刊
由《图书情报工作》杂志社、图情期刊联盟网主办,广州图书馆、广州市图书馆学会承办的“2019年图情前沿热点学术研讨会暨论文写作与投稿研修班”于2019年10月8-12日在广东省
期刊