论文部分内容阅读
Internet正在日益成为一个重要的信息来源,如何对Web数据进行检索和加工,使得用户能够更好地利用Intemet上的数据资源己经成为了新的研究热点。文中论述了半自动化数据提取算法,其中使用了基于扩展正则表达式的信息槽提取算法和基于网页特性的事件分割算法。同时描述了利用这些算法的信息提取系统,并详细介绍了系统的体系结构和实现细节。该系统可以被用于真实的Web环境中以提高存储、利用信息的效率,在一定程度上解决在Internet上获取信息及利用信息的困难。