论文部分内容阅读
互联网信息资源日渐激增,如何高效地从中取出有用信息成为学术界的一个重要研究方向。信息抽取是从半结构化或非结构化的数据中抽取出事实信息的过程,它需要对信息进行一定程度的理解,最初等同于文本理解的概念。 随着互联网的出现和发展,信息抽取的任务被赋予了更多的内涵,也面临着更多的挑战,包括:(1)网络信息数量庞大,领域广泛,对信息抽取系统的效率和可移植性都有较高的要求;(2)网络信息多以半结构化的网页形式出现,其中包含大量无关信息,影响系统对信息的理解;(3)自然语言具有多义性,同一个词语出现在不同上下文中所表达的含义可能有所不同;(4)产品命名实体的结构和边界比一般命名实体更加复杂,识别难度也更大。 针对网络信息抽取面临的挑战,本论文围绕以下四个方面展开了研究: (1)在传统信息抽取的结构框架的基础上,针对互联网信息数量庞大、覆盖领域广等特点,本论文提出了一个贯穿网络信息抽取完整流程的整体框架。在这个框架下,系统利用领域知识库来指导信息抽取的过程,可以方便地移植到不同的领域中使用。 (2)为了清除半结构化网页中的无关信息,找出其主要内容,本论文研究了一种无监督的网页信息抽取算法。由于一般网页的内容特征和结构特征都是弱特征,本论文为它们加上了动态的特征权重,利用最大期望算法进行动态更新,权重大小会根据不同的网页发生变化,使特征更好地描述网页。同时,本论文使用最小文本子树作为网页的分割单位,能较好地避免连续信息块的丢失和噪音块的混入。 (3)自然语言的多义性对信息抽取系统理解信息的准确度有很大的影响。本论文研究了一种基于词语位置关系的词义消歧算法,把词语之间的距离分为句子距离和词语距离两个分量,确定了上下文距离关系函数,更准确地衡量上下文词语对歧义词词义选取的影响。无论是使用有监督还是有限监督的训练方式,该算法都能取得较好的词义消歧效果。 (4)商务信息的获取和分析在商业竞争中具有重要的现实意义,而产品命名实体识别是其中重要的基础任务。本论文利用三层的半监督学习框架,首先根据产品命名实体各个部分的结构特征和它们之间的关系特征抽取出候选集,然后把与正例上下文相似度高的候选词自动标记为正例,并利用这些数据训练一个隐条件随机场模型进行产品命名实体识别。 最后,本论文以这四个方面的成果和其他一些开源项目作为基础,建立了一个网络信息抽取的原型系统,并介绍了该原型系统在两个不同场景中的应用实例。