论文部分内容阅读
随着计算机和企业办公自动化的普及,电子文档成为企业文档的最主要的形式。Internet的出现,加速了电子文档的交流,同时使得电子文档的数量急剧膨胀。企业对文档的应用也有了新的需求,文档由原来的信息的载体逐步转变为信息和知识的综合体。信息抽取应运而生,它是为了在大量的文本信息中找到用户感兴趣的信息点而产生的技术。谢菲尔德大学研发了一个信息抽取和自然语言理解的软件平台GATE(General Architecture of Text Engineering),在这个解决方案中,文档标注使得信