论文部分内容阅读
挖掘互联网互联网是一个无限的数据源,通常包括文本、图片和其他多媒体等内容。在大多数情况下,为了从互联网中抽取知识,需要借助一种叫做自然语言处理的技术。这项技术可以追溯到1950年,当时阿兰·图灵提出一种计算机智能标准,就是现在的图灵测试,它的典型应用在语言翻译上。20世纪50年代,人工智能工程师乐观地预测,机器翻译将在十年内成为现实。但遗憾的是,实际进展要比预期慢得多。但是,当语言被应用在一个较小的领域时,(如在智能手机上完成工程任务、飞机票预定、医院接待等),这一技术已经取得了突破性进展。