基于Bootstrapping方法的校友识别问题研究与应用

来源 :南开大学 | 被引量 : 0次 | 上传用户:yyy8881200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大学校友是高校拥有的巨大潜能的人力资源,是学校的宝贵财富,是学校良好声誉的创造者,也是学校进一步发展的重要资源,得到了越来越多的重视。然而目前校友资源的管理手段落后,不能够满足人们对校友资源利用的需求。   互联网中所包含大量由自然语言所表述的信息,其中包含了丰富的校友信息以及最新动态。然而对于计算机来说处理这些非结构化的信息是困难的,信息抽取领域中的相关方法提供了将文本内容转换为结构化知识的途径。如何在大量的信息中正确的识别出校友面临着以下几个问题:互联网中的信息是海量的且结构复杂,互联网中的实体以及实体之间的关系是复杂的且没有标识。   本文的工作就是要在大量的互联网信息中将正确的校友识别出来。而校友识别问题就是人和学校关系的抽取,关系抽取作为信息抽取领域的一个方法能够很好的解决本文中的校友识别问题。   首先,本文将校友识别问题抽象为关系抽取的问题,即对人名和学校名之间的关系进行抽取。同时采用了关系抽取中的的基于SVM的监督学习的方法和基于Bootstrapping的半监督学习方法来进行校友的识别。两种方法都能够解决校友识别的问题,具有比较理想的准确率和召回率。而Bootstrapping方法由于只需要少量的训练数据,因此比监督学习的方法更加适合处理大数据量的信息。   其次,由于传统的方法对单一的关系比较有效,而校友关系包含了多个子关系。本文针对这一问题,提出了改进的两阶段Bootstrapping方法来更好的解决校友识别问题,该方法通过对第一阶段产生的模式进行进一步的筛选,使得Bootstrapping算法更加适用于复杂关系模式的抽取。然后本文通过在小规模数据集合和大规模数据集合上验证了两阶段Bootstrapping算法的有效性和优势。   最后,本文将算法应用到校友搜索系统上,构建了校友信息检索与分析系统。该系统是一个垂直搜索系统,能够提供对互联网中校友的识别以及校友关系的抽取,且有别与传统搜索引擎的组织方式,以关系网络的形式进行搜索结果的展示。
其他文献
随着IT技术的发展,生物识别技术已经成为一个研究的热点领域。各国政府都纷纷资助生物识别技术方面的研究,该领域方面的学术会议吸引了政府和业界众多的参与者,理论研究的成果正
随着现代科技的发展,计算机被越来越多地应用于日常生活中,随之产生的是各类院校中计算机基础课程的广泛普及。计算机基础课程主要训练常用办公软件(Office)的操作技能,具有实践
随着经济的全球化、信息化和服务化,IT建设逐渐由技术转向业务,而业务交付不及时、缺少统一规划、应用间共享困难、功能个性化不足、开发低成本和高要求的矛盾导致企业应用系统
随着信息化时代的迅速发展,信息检索逐渐被人们看作为一个关注的热门话题,而对与检索系统的评价来说,在信息检索技术的发展有了巨大的影响。如今,维吾尔文网页也逐步推动,扩大。在
手机通讯时人类历史上迄今为止最为便捷的通讯手段,它有随时,随地,随身的特点,已经成为第五媒体。在一些偏远地方,手机可弥补传统业态渠道在时间和空间的不足。短信、彩信及w
随着社会和网络技术的发展,产生了大量的图像信息。如何对这些图像进行分类、存储和检索,一直是目前计算机技术的一个研究的热点。由于图像基于情感的分类检索可以极大的提高
近年来,社会的飞速发展,伴随而来的就是大量的数据的产生。对于这些海量的数据,人们希望能过其中的大部分数据找出某些规律来指导人们日常的行为。在这个过程中,人们大多数情
随着无线通信、集成电路、传感器以及微机电系统等技术的飞速发展和日益成熟,低成本、低功耗、多功能的微型传感器的大量生产成为可能。无线传感器网络就是由部署在监测区域内
计算机博弈是人工智能领域里的热点研究课题。传统计算机博弈模型使用极大极小搜索与评估函数相结合的方式,棋力高低依赖于搜索的深度。在计算性能较低的平台上搜索深度加深
僵尸网络是互联网上被僵尸主人控制的一群计算机,僵尸主人利用僵尸网络进行各种攻击或盗取机密信息。僵尸网络通过病毒或恶意软件传播,对计算机有很高的控制能力,危害程度高于一