三位一体字标注的汉语词法分析

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:q542936575
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,该文提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分词、词性标注、命名实体识别的性能进行大量对比实验,结果表明,三位一体字标注方法的分词、词性标注、命名实体识别的性能都有不同程度的提升,汉语分词的F值达到了96.4%,词性标注的标注精度达到了95.3%,命名实体识别的F值达到了90.3%,这说明三位一体字标注的汉语词法分析性能更优。
其他文献
十年树木,百年树人。龙应台文化名士曾发表过以下言论,“孩子,我要求你读书用功,不是因为我要你跟别人比成绩,而是因为,我希望你将来会拥有选择的权利,选择有意义、有时间的工作,而不
该文在介绍一种全新的可靠性指标分配方法的基础上,对电控绞车系统可靠性进行了设计分析,估算出系统的平均无故障工作时间,进一步分配到各个子单元中,分析表明电控绞车的各个
用硬件描述语言VHDL对频率计系统进行设计,此程序在EDA软件平台Max+plusⅡ上编译仿真后,制作出其硬件电路板,再将程序下载到FPGA模块中实现。硬件设计中只需一个下载芯片EP2C5
随着课程改革的不断深入,如何在语文教学中实施素质教育,一直是教师们探索的课题,也是努力的方向。尤其是体校学生,由于较多的训练比赛安排,文化课学习时间要比普通高中学生
该文研究和探讨一种新的分词方法:基于词边界分类的方法。该方法直接对字符与字符之间的边界进行分类,判断其是否为两个词之间的边界,从而达到分词的目的。相对于目前主流的基于
复述(Paraphrase)句的识别可看作文本蕴含(Text Entailment)识别的一个子问题,传统的解决方法是通过词频或句法上的相似度来判断。即使用相同的文字书写的句子其含义也可能差别很
该文介绍了传统、现代和智能三种工业机器人的控制力怯,并讨论了工业机器人的发展趋势。
传统的中文分词就是识别出每个词的边界,它忽略了汉语中词与短语分界不清这一特点。在理论上,语言学家对词边界的确定往往各持己见,各语料库的分词标准不能统一,在实践中也不
毕业10多年来,一直从事小学语文教学工作,在长期的教学工作中,总结出了一些适合自己的语文教学方法。一、每节课之前,让学生做好课前预习我在学生学习新知之前,都要向学生发
该文采用射频等离子体增强化学气相沉积法制备了TiO2薄膜样品,并通过椭圆偏振仪、红外光谱仪和扫描电子显微镜测量了薄膜厚度、组织结构和光学特性。结果表明:沉积速率随偏置