论文部分内容阅读
如何从海量的信息中,提取有价值的目标信息是十分有意义的工作。信息提取系统可以快速、准确地从海量的文本信息中提取出自定义的一定格式、一定意义的信息。Internet应用的快速发展给信息提取提供了一个很好的应用前景。Internet发布的信息中有很大一部分都属于半结构化的文本。鉴于此,介绍了一个可以从半结构化网页中快速准确提取信息的模型SEMITXT,以及用于产生提取规则的一个有监督的学习算法,并给出了该模型在民航旅客信息处理中的应用实例。