论文部分内容阅读
随着互联网的社会的各个方面的渗透,个人信息越来越多地出现在网上。人物搜索引擎作为互联网技术的一部分,近几年刚刚兴起,而针对某一特定领域的人物搜索也是一项新生事物,对其研究还不成熟。目前高校教师的教学水平和研究水平越来越受到关注,高校教师的信息搜索需求也越来越大,本文以高校计算机专业的教师的信息抽取为应用背景,对异构信息源的领域人物信息抽取进行研究,并实现了一个高校计算机专业的教师人物志系统。本文重点对以下问题进行了研究:首先,本文采用基于主题爬虫的方法来获取人物信息网页和从搜索引擎返回的结果网页中识别出包含人物信息的网页两种方式来获取数据源,将该网页识别问题看作一个网页分类问题,根据网页的结构特征和网页的内容特征提取网页的特征,运用SVM模型进行分类。为了提高分类的时间效率,提出了两种特征选择方法,即特征项对类的贡献度以及SVM训练权重的特征选择方法。其次,根据包含人物信息网页的特点,本文对包含人物信息的网页进行分类。在分类方法上,结合网页的结构特征和内容特征,提出了基于规则与机器学习相结合的方法进行网页分类。在处理多记录网页的分类上,本文采用了基于HTML标签密度与基于内容的分类方法。在处理单记录网页的分类上,基于网页结构进行特征提取,并使用了SVM模型设计分类器,实验结果显示基于规则与基于网页结构特征的分类器取得了比较好的效果。第三,本文在对包含人物信息的网页进行分类的基础上,提出了基于规则的人物属性抽取方法。首先构造领域人物信息抽取的触发词库,同时根据领域人物信息提取的特点以及基于网页结构的人物信息网页的类别特点构造人物属性信息抽取的规则库,人物的属性信息抽取即建立在网页类别、触发词库与规则库以及属性自身的特点的基础上。实验显示人物属性抽取取得了比较好的结果。最后,本文将异构信息源的领域人物信息抽取方法应用到高校计算机专业的教师的信息抽取中,并实现了一个高校计算机教师人物志系统,该系统收集了全国120所高校总计4134名教师的信息,实现了按照多种方式查询教师的信息。