论文部分内容阅读
基于大规模语料库进行语言监测是近年来国家语言资源监测与研究中心实施的一个项目,其目的是对语言使用的实际状况进行记录、调查,调查的内容包括年度字词语的使用情况、年度流行语、新词语等。本文介绍了支持这些调查项目的海量数据的处理技术,包括语料的获取方法,年度字、词语表的提取,流行语、新词语的提取技术。最后对语言监测中存在的问题和需要继续深入的研究进行了探讨。