论文部分内容阅读
随着信息产业的不断飞速发展壮大,网络上的数据每天都在以惊人的速度不断的增长。用户在查询中越来越多的包含实体的信息,例如人名、机构名等,试图通过围绕实体来构建有意义的查询条件,从语义的方面查找到与这些实体相关的信息,而不仅仅通过关键词来进行信息搜索与查询。基于文档级别进行索引的通用搜索引擎,例如谷歌、百度、雅虎等,都是基于关键词匹配的文档检索,在一定程度上已经开始不能满足互联网用户的搜索需要,人们期望以实体为中心的搜索系统的出现。本文调研了上述搜索引擎的不足以及用户搜索的习惯,提出了基于实体关联模型的信息融合方法,通过机器学习构建面向行业的网页信息融合原型系统,以实体为中心将信息进行融合,目的在于利用实体的概念将信息以实体为中心集成起来,更方便于普通互联网用户有效的进行以实体为中心的搜索。本文主要进行的研究工作如下:首先,基于百度百科,通过词条的抽取、分类、整理,得到一个基于IT行业领域的实体词典。其次,收集各大门户网站中的IT新闻文本以及IT行业知名博客,通过网页抽取技术,整理并构建了面向行业的中文新闻领域的语料库。然后,通过机器学习的方法构建面向行业的网页信息融合原型系统,利用基于图的排序算法计算出文本与实体的相关度,在语义理解的基础上得到文本中实体的权重,并根据实体在所出现的文本的权重计算出实体间的关联度。最后,在上述研究基础上,完成一个以实体为中心的搜索系统原型。本文在系统的实验中,使用已经构建好的基于中文新闻领域的语料库作为测试集,对该面向行业的信息融合原型系统进行了测试,实验结果表明,通过与人工标注的实体关联度进行对比,本文所构建的实体模型中,文本与实体的相关度以及实体间的关联度与人工标注的结果偏差大部分小于0.1,计算结果与人们的认知结果基本吻合,具有较高的准确率。