基于Bootstrapping方法的校友识别问题研究与应用

来源 :南开大学 | 被引量 : 0次 | 上传用户：yyy8881200

【摘要】

：

大学校友是高校拥有的巨大潜能的人力资源，是学校的宝贵财富，是学校良好声誉的创造者，也是学校进一步发展的重要资源，得到了越来越多的重视。然而目前校友资源的管理手段落后，不能

【作者】

：

滕飞

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2011年期

【关键词】

：

校友识别信息抽取监督学习 Bootstrapping方法信息检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大学校友是高校拥有的巨大潜能的人力资源，是学校的宝贵财富，是学校良好声誉的创造者，也是学校进一步发展的重要资源，得到了越来越多的重视。然而目前校友资源的管理手段落后，不能够满足人们对校友资源利用的需求。　　互联网中所包含大量由自然语言所表述的信息，其中包含了丰富的校友信息以及最新动态。然而对于计算机来说处理这些非结构化的信息是困难的，信息抽取领域中的相关方法提供了将文本内容转换为结构化知识的途径。如何在大量的信息中正确的识别出校友面临着以下几个问题：互联网中的信息是海量的且结构复杂，互联网中的实体以及实体之间的关系是复杂的且没有标识。　　本文的工作就是要在大量的互联网信息中将正确的校友识别出来。而校友识别问题就是人和学校关系的抽取，关系抽取作为信息抽取领域的一个方法能够很好的解决本文中的校友识别问题。　　首先，本文将校友识别问题抽象为关系抽取的问题，即对人名和学校名之间的关系进行抽取。同时采用了关系抽取中的的基于SVM的监督学习的方法和基于Bootstrapping的半监督学习方法来进行校友的识别。两种方法都能够解决校友识别的问题，具有比较理想的准确率和召回率。而Bootstrapping方法由于只需要少量的训练数据，因此比监督学习的方法更加适合处理大数据量的信息。　　其次，由于传统的方法对单一的关系比较有效，而校友关系包含了多个子关系。本文针对这一问题，提出了改进的两阶段Bootstrapping方法来更好的解决校友识别问题，该方法通过对第一阶段产生的模式进行进一步的筛选，使得Bootstrapping算法更加适用于复杂关系模式的抽取。然后本文通过在小规模数据集合和大规模数据集合上验证了两阶段Bootstrapping算法的有效性和优势。　　最后，本文将算法应用到校友搜索系统上，构建了校友信息检索与分析系统。该系统是一个垂直搜索系统，能够提供对互联网中校友的识别以及校友关系的抽取，且有别与传统搜索引擎的组织方式，以关系网络的形式进行搜索结果的展示。

其他文献

E-Passport and Building Online Passport Service System

随着IT技术的发展，生物识别技术已经成为一个研究的热点领域。各国政府都纷纷资助生物识别技术方面的研究，该领域方面的学术会议吸引了政府和业界众多的参与者，理论研究的成果正

学位

生物识别电子护照护照服务系统RFID标签海关信息管理数字签名

计算机基础考试自动判卷系统的设计与实现

随着现代科技的发展，计算机被越来越多地应用于日常生活中，随之产生的是各类院校中计算机基础课程的广泛普及。计算机基础课程主要训练常用办公软件(Office)的操作技能，具有实践

学位

自动判卷系统计算机基础考试上机考试系统业务流程总体结构设计模糊匹配算法

基于ESB的应用系统开发方法的研究与应用

随着经济的全球化、信息化和服务化，IT建设逐渐由技术转向业务，而业务交付不及时、缺少统一规划、应用间共享困难、功能个性化不足、开发低成本和高要求的矛盾导致企业应用系统

学位

SOA架构Web Services企业服务总线应用软件开发面向服务体系结构消息传输

维文文本检索评测集构建及可视化方法研究

随着信息化时代的迅速发展，信息检索逐渐被人们看作为一个关注的热门话题，而对与检索系统的评价来说，在信息检索技术的发展有了巨大的影响。如今，维吾尔文网页也逐步推动，扩大。在

学位

信息检索文本可视化主题分类维吾尔文

移动通信短信彩信互动平台的研究与实现

手机通讯时人类历史上迄今为止最为便捷的通讯手段,它有随时,随地,随身的特点,已经成为第五媒体。在一些偏远地方,手机可弥补传统业态渠道在时间和空间的不足。短信、彩信及w

学位

移动通信短信彩信wapWiFi

基于模糊决策树的图像情感分类规则抽取算法的研究

随着社会和网络技术的发展,产生了大量的图像信息。如何对这些图像进行分类、存储和检索,一直是目前计算机技术的一个研究的热点。由于图像基于情感的分类检索可以极大的提高

学位

图像视觉特征图像情感模糊决策树规则抽取

基于神经网络的异常点挖掘

近年来,社会的飞速发展,伴随而来的就是大量的数据的产生。对于这些海量的数据,人们希望能过其中的大部分数据找出某些规律来指导人们日常的行为。在这个过程中,人们大多数情

学位

数据挖掘异常点异常点挖掘神经网络信息熵

基于优化算法和节点覆盖的无线传感器网络路由协议研究

随着无线通信、集成电路、传感器以及微机电系统等技术的飞速发展和日益成熟，低成本、低功耗、多功能的微型传感器的大量生产成为可能。无线传感器网络就是由部署在监测区域内

学位

无线传感器网络模拟退火算法簇头选举优化算法节点覆盖路由协议

不平衡分类器博弈模型及其在中国象棋中的应用

计算机博弈是人工智能领域里的热点研究课题。传统计算机博弈模型使用极大极小搜索与评估函数相结合的方式,棋力高低依赖于搜索的深度。在计算性能较低的平台上搜索深度加深

学位

不平衡学习计算机博弈分类器博弈模型人工神经网络中国象棋

P2P僵尸网络及其反制方法的研究

僵尸网络是互联网上被僵尸主人控制的一群计算机，僵尸主人利用僵尸网络进行各种攻击或盗取机密信息。僵尸网络通过病毒或恶意软件传播，对计算机有很高的控制能力，危害程度高于一

学位

僵尸网络对等网络sybil攻击互联网安全

基于Bootstrapping方法的校友识别问题研究与应用

与本文相关的学术论文