异构信息源的领域人物信息抽取研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:saoluan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的社会的各个方面的渗透,个人信息越来越多地出现在网上。人物搜索引擎作为互联网技术的一部分,近几年刚刚兴起,而针对某一特定领域的人物搜索也是一项新生事物,对其研究还不成熟。目前高校教师的教学水平和研究水平越来越受到关注,高校教师的信息搜索需求也越来越大,本文以高校计算机专业的教师的信息抽取为应用背景,对异构信息源的领域人物信息抽取进行研究,并实现了一个高校计算机专业的教师人物志系统。本文重点对以下问题进行了研究:首先,本文采用基于主题爬虫的方法来获取人物信息网页和从搜索引擎返回的结果网页中识别出包含人物信息的网页两种方式来获取数据源,将该网页识别问题看作一个网页分类问题,根据网页的结构特征和网页的内容特征提取网页的特征,运用SVM模型进行分类。为了提高分类的时间效率,提出了两种特征选择方法,即特征项对类的贡献度以及SVM训练权重的特征选择方法。其次,根据包含人物信息网页的特点,本文对包含人物信息的网页进行分类。在分类方法上,结合网页的结构特征和内容特征,提出了基于规则与机器学习相结合的方法进行网页分类。在处理多记录网页的分类上,本文采用了基于HTML标签密度与基于内容的分类方法。在处理单记录网页的分类上,基于网页结构进行特征提取,并使用了SVM模型设计分类器,实验结果显示基于规则与基于网页结构特征的分类器取得了比较好的效果。第三,本文在对包含人物信息的网页进行分类的基础上,提出了基于规则的人物属性抽取方法。首先构造领域人物信息抽取的触发词库,同时根据领域人物信息提取的特点以及基于网页结构的人物信息网页的类别特点构造人物属性信息抽取的规则库,人物的属性信息抽取即建立在网页类别、触发词库与规则库以及属性自身的特点的基础上。实验显示人物属性抽取取得了比较好的结果。最后,本文将异构信息源的领域人物信息抽取方法应用到高校计算机专业的教师的信息抽取中,并实现了一个高校计算机教师人物志系统,该系统收集了全国120所高校总计4134名教师的信息,实现了按照多种方式查询教师的信息。
其他文献
智能组卷问题是一个在一定的约束条件下的多目标参数优化问题,采用传统的数学方法求解相当困难,自动组卷的效率和质量完全取决于试题库设计以及抽题算法的设计。随着计算技术
无人机遥感技术以其诸多优点,已广泛应用于国土资源测绘和监测领域。但在部分地区因气象条件或大气污染等因素雾霾天较多,使得采集的图像严重降质,极大影响了图像分析和理解
空间数据库在地质模型构建中具有重要作用。论文结合巨野煤田赵楼井田地质钻孔数据,通过构建基于钻孔数据的空间数据库,为地层三维建模提供便捷高效的数据访问服务。论文主要
随着网络信息技术的快速发展,出现了大量在分布式异构环境下应用之间的互操作。分布式应用之间通过互操作可以共享资源和服务,从而有效提高信息数据的利用率。在多域异构环境
SaaS(软件即服务:Software as a Service)模式是随着互联网技术的发展和应用软件的成熟,而开始兴起的一种完全创新的软件应用模式。SaaS模式下的应用服务是在应用服务端完成
车载自组织网络(Vehicular Ad-hoc Network,VANET)是物联网在智能交通领域的延伸,在道路安全、驾驶辅助方面有着巨大的应用价值。但是,由于车辆的个人属性和社交属性,针对VAN
工作流技术是实现企业业务过程建模、仿真优化分析、过程管理与集成,最终实现业务过程自动化的核心技术。工作流在企业办公自动化中扮演的角色越来越重要。但是,企业的信息环境
学位
随着科学技术的快速发展,越来越多的领域采用信息技术进行数据管理,与以往的数据处理相比,简化了操作,提高了工作效率。然而,随着信息化的不断推进,数据的存放日益分散且形式
随着影像医学在临床的应用越来越广泛,图像处理技术在影像医学中发挥着越来越大的作用。图像分割是提取医学图像中特定组织的定量信息的不可缺少的手段,同时也是实现特定组织
针对传统神经网络学习算法(如BP算法、RBF算法)等训练权值难以反映训练样本信息的缺陷,南京邮电大学的张代远教授在专著《神经网络新理论与方法》提出了样条权函数神经网络算法,