一种基于规则不依赖于分词的中文数量短语的识别

来源 :第七届中文信息处理国际会议 | 被引量 : 0次 | 上传用户:baohuse
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一种新的基于规则的不依赖于分词的数量短语识别方法来实现中文数量短语的识别。首先对中文数量短语识别技术的现状进行了简要分析和概述,明确了中文数量短语识别的任务,然后,基于前人的工作提出了基于规则的方法及不作分词和词法分析,而根据数量短语的特征库直接进行提取和识别的方法。其基本思路是:通过识别器中的搜索器对句子进行搜索,得到一个具有特征的最大字符串,再通过内建的规则处理器对最大字符串进行中文数量短语构成模式的识别,在识别的过程中,使用数量短语特征库填充11类构成模式,并自动对识别出的数量短语进行类XML标注,由于特征库和构成模式可以方便地添加进系统,从而能加强系统的识别效果。我们在人民日报1998年1月份的未标注语料上进行了中文数量短语的识别实验,取得了召回率98.7%,精度90.9%的较好效果,由于采用了不分词的技术,与采用分词技术的识别过程相比,显著地提高了处理的效率。
其他文献
作为一种政府公共资源,准确评价科技经费的投入绩效,是提高政府投入效率、规避政府投入风险的需要,也是世界各国的普遍做法.通过对科技投入效益进行全面而准确的评价,对增加
《工业企业设计卫生标准》TJ36-79,要求对油汽蒸汽生产中产生的可燃性气体进行回收利用,这就需要研制与开发出既经济又实效的VOC回收装置,装置应具有工艺流程简单、设备少、
会议
本文提出了一种基于词库的结合词频、词性、中文文法规则和未登录词识别规则的分词算法,该算法首先通过采用基于词库的跨度为1的前向最大匹配分词算法获得初步的分词结果,然
政策保八国家统计局新闻发言人李晓超早前宣布,我国前三季度GDP增长率达到7.7%,经济回升趋势得到巩固,加之去年四季度基数较低,“‘保八’是有把握的,是没有悬念的。”这得益
在汽车制造、电子、工作机械(纺织机械、印刷、包装设备、机床)、食品等工业产业的自动化进程中,气动技术发挥着重要的作用。为了设计出优化的气动系统,需要准确地把握每个气
会议
本文主要介绍了HIsmelt炼铁工艺和由昆明理工大学自行开发设计的富氧顶吹熔融还原冶炼工艺.此二种熔融还原炼铁工艺具有相同点,但又有很多不同点.工艺中均采用高二次燃烧率,
为研究基于转换的错误学习方法(TBL)以后处理方式提高分词精度的问题,分别用FMM和HMM两种初始分词器,在SIGHAN 2006 MSRA和UPUC语料上试验了基于字的一元、二元、三元及其组
会议
近年来,P2P技术以其拥有在终端间直接交换信息的能力而备受关注,在P2P通信模型中存在大量对等端通信,因而就需要为电子业、社会等群体构建一个通用的通信平台,本文提出了一种
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
高风格高水平从九月十一日到二十八日在首都北京举行的中华人民共和国第二届运动会,取得了巨大的胜利和成功。我国人民的伟大领袖毛泽东主席、刘少奇主席以及党和国家其他领