论文部分内容阅读
随着web的普及和发展,web信息量正在以指数级的速度增长,传统搜索引擎虽然可以为用户提供信息检索服务,但其搜索结果含有大量冗余信息,特别是对于人物信息的查找,难以快捷地提供用户所需要的精简而全面的信息。本文通过对互联网人物信息抽取的研究,设计实现了一个互联网人物搜索引擎,解决了用户在搜索人物信息时的困境。本文的主要工作是:(1)针对互联网人物信息特点,设计并实现了一个基于搜索引擎的互联网人物社会关系抽取方法。该方法将人物关系类别特征词与测试集人名一起作为组合关键词提交到搜索引擎,在搜索结果中利用人名识别技术获取相关人名集合,再将测试集人名与相关人名结合成人物关系词对,作为初始种子提交到搜索引擎,通过退火算法迭代建立人物关系描述模式集,最后将测试集人名、相关人名和人物关系描述模式三者结合的组合关键词再次提交到搜索引擎,在搜索结果通过统计分析匹配度确定关系人物。(2)实现了人物社会关系可视化。通过对信息可视化和人物社会关系可视化研究,构建一个人物关系可视化模型,将复杂的人物社会关系以关系图的方式表现出来,同时通过对关系图进行交互设计,实现了社会关系的时序展示,兼顾了用户的交互需求,方便对人物关系的整体把握。(3)实现了一个互联网人物搜索引擎。该搜索引擎根据人物信息的多维性,应用特定的人物信息索引结构,将人物社会关系,人物简介,人物新闻等构建成一个良好的信息组织,提供一个全面、整体的人物搜索结果。本文的特色和创新之处在于:针对海量的互联网人物信息,提出了一个基于搜索引擎的互联网人物信息抽取方法,该方法获得了90%以上的准确率和召回率,具有很好的实际应用价值;在人物社会关系可视化基础上进行人物关系图的交互设计,实现人物关系的时序展示,利于用户对人物社会关系的整体把握;根据人物信息的多维性研究设计了一个适用于人物搜索引擎的索引结构。