中文文本分词及词性标注自动校对方法研究

被引量 : 8次 | 上传用户:hudie8707180910
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库建设是中文信息处理研究的基础性工程。汉语语料的基本加工过程,包括自动分词和词性标注两个阶段。自动分词和词性标注在很多现实应用(中文文本的自动检索、过滤、分类及摘要,中文文本的自动校对,汉外机器翻译,汉字识别与汉语语音识别的后处理,汉语语音合成,以句子为单位的汉字键盘输入,汉字简繁体转换等)中都扮演着关键角色,为众多基于语料库的研究提供重要的资源和有力的支持。 语料库的有效利用在很大程度上依赖于语料库切分和标注的层次和质量。当前对汉语语料的加工结果,虽已取得了一定的成绩,但国家的评测结果表明,其离实际需要的差距还是很大的,还有待于进一步的提高。 本文以进一步提高汉语语料库分词和词性标注的正确率,提高汉语语料的整体加工质量为目标,分别针对语料加工中的分词和词性标注两个阶段进行了研究和探讨: 1.讨论和分析了自动分词的现状,并针对分词问题,提出了一种基于规则的中文文本分词自动校对方法。该方法通过对机器分词语料和人工校对语料的学习,自动获取中文文本的分词校对规则,并应用规则对机器分词结果进行自动校对。 2.讨论和分析了词性标注的现状,并针对词性标注问题,提出了一种基于粗糙集的兼类词词性标注校对规则的自动获取方法。该方法以大规模汉语语料为基础,利用粗糙集理论及方法为工具,挖掘兼类词词性标注校对规则,并应用规则对机器标注结果进行自动校对。 3.设计和实现了一个中文文本分词及词性标注自动校对实验系统,并分别做了封闭测试、开放测试及结果分析。根据实验,分词校对封闭测试和开放测试的正确率分别为93.75%和81.05%;词性标注校对封闭测试和开放测试的正确率分别为90.40%和84.85%。
其他文献
<正>在全球经济一体化和网络时代的大背景下,随着计算机网络技术和现代化信息技术的广泛应用,原来作为流通体系和市场网络中心的传统服装批发业受到了猛烈的冲击。在这样的背
随着全球经济一体化和我国成功地加入世界贸易组织,由跨国公司国际投资引起的国际资本流动和国际资本市场必然会不断地扩大,因此与之相关的信息披露也就显得越来越重要,这就对我
国债问题一直是一个很重要的经济问题。特别是1998年我国实施以增发国债为主要内容的积极财政政策以来,我国的国债状况已经发生了很大的变化,不仅国债发行规模屡创新高,而且国债
20世纪80年代以来,随着我国社会主义市场经济体制的逐步建立及国家产业政策的调整,我国房地产业得到了前所未有的发展,也带动一大批房地产中介行业逐渐发展起来,由于房地产交易具
90年代中期以来,经济全球化使世界经济格局重新“洗牌”,所有的国家都感受到了由此而带来的深远影响和巨大压力,我国只有顺应全球化的潮流,突破国界的局限,走国际化经营道路,才能确
“智能”照明技术随着智能建筑的兴起而迅速发展,成为照明技术发展的又一个重要方向。针对现有智能照明控制系统的优、缺点,根据人们的行为模式和住宅的光环境决定照明的控制规
一天在超市里,我突然听到刺耳的孩子的尖叫声,抬眼望去,看到一位母亲正试图把躺在地上大哭大叫的儿子抱起来,旁边是散落在地上的麦片盒子。$$母子俩僵持了很久,哭闹着的孩子任凭母
报纸
<正>千万别以为"云端图书馆"是跟"云计算"有关的电子图书馆,所谓"云端图书馆",顾名思义,就是可以空中阅读的图书馆。这种图书馆分布飞机场内,实行"A地借阅—空中阅读—B地归
在“红学”研究中,《红楼梦》的喜剧性还是一个较少被人关注的课题。虽有一些论文有所涉及,但大都侧重某一个方面,不够系统与完整。《红楼梦》中有大量幽默诙谐的喜剧描写,它们不
红外探测系统对巡航导弹进行探测预警,是拦截巡航导弹的首要条件。通过分析在3~5μm波段内,作为巡航导弹主要辐射源的蒙皮、发动机喷口和羽流的红外辐射特性,建立了凝视型红