论文部分内容阅读
多词表达是自然语言中的常见现象,其自动提取对很多自然语言处理任务有着举足轻重的作用。本研究以Google公司发布的基于公共网页的1至5元文法语料库作为词频统计的依据,同时结合自动词性标注的信息,对英国国家语料库的书面语材料部分进行多词表达的自动提取。研究结果表明,该方法能够充分利用Google语料库的精确词频信息,从而提高了多词表达抽取的准确率,并且能够较好地缓解数据稀疏现象带来问题。