汉语语料的自动分类

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:zrn851207
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库语言学的发展要求语料库的规模越来越大,随着电子出版业的迅速发展,获取大量机读文本建立大规模语料库已成为可能。但是收集来的粗语料是杂乱无章的,在作加工整理前必须分类。若用手工分类则工作量很大。本文介绍了一语料自动分类办法。
其他文献
川中石油天然气勘探开发公司现有资产总额12亿元,固定资产原值约12亿元,净值6亿元,所有者权益8亿元。公司以经济效益为中心,以严肃的态度抓管理,以改革促进企业发展,取得了较
随着本世纪中后期各国天然气勘探开发的加速发展,今后的10年,一些国家能源专家预言的"天然气世纪"即将到来。世界油气工业生产结构面临划时代的转折:世界天然气需求量将增加4
环境问题是第十五届世界石油大会的主要议题之一。在大会收到的91篇宣读论文中,直接论述环境保护问题的多达近1/6,环境问题无疑已成为管理者和石油工作者都必须面对并须加以
本文基于对现有形码设计存在的规范性与易学,易用性间矛盾的分析,提出一种新的汉字编码设计模式;严格遵守汉字部件的规范,用多位(1-3位)字母表示部件以解决大量部件的定位,排序,合体字的
近年来,为了划清全民与集体资产产权关系,加强国有资产产权管理,防止国有资产流失,我们一方面逐步以资产租赁合同方式对公司内部集体所有制企业有偿使用全民所有制企业的资产
青年科技人员是跨世纪的人才,在很大程度上决定着我们民族的盛衰和现代化进程。然而从目前的实际情况看,在科技人员管理和使用上还存在一些问题。主要表现为以下三个方面:
1993年,四川石油管理局钻井工作量因受投资局限急剧萎缩,钻井工程投资由计划下达转变为招投标竞争。川东钻探公司在市场、资金等方面出现始料不及的变化的情况下,一方面在职
本文在分析英文速记识别技术以及中文速记特点的基础上,提出了中文速记符的自动识别策略,并且以“人群速记”体系为研究对象,详细描述了用于识别速记符中297个音符的动态规划识别过
本文提出了一种适用于孤立字识别的基于基因算法的时间规正算法;详细讨论了其中一些关键技术,如编码方法,适应度技术,基因操作子设计等,该算法可弥补动态时间规划的某些不足:(1)使距离
PostScript为桌面设计过程中,排版印刷的后端处理的开放标准。高速中文PostScript系统的实现涉及到多方面的技术。我们一方面研究了中文PostScript系统软件构成和算法;另一方面,设计并实现了基于Intel80960CA超标量亿次处理