基于锚文本的领域语料库自动构建

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:niannian827
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,不同领域网络信息的种类和组成形式愈加复杂,每个网站节点都具有复杂的分类体系结构,并且包含丰富的文本信息,如何将大量的文本信息标注到对应正确类别体系中,将标注好的文本集合构建成一个领域语料库,成为了当前的一个热点问题。虽然通过人工标注构建的语料库满足较高的标准性和准确性,但是当分类体系结构自动更新时,则必须重新对语料库中的文本集合进行标注。针对人工构建语料库的这一缺陷,本文研究如何根据领域网站的本体结构和给定的目标分类体系,自动构建领域语料库。  本文首先分析领域网站结构,提出基于网页结构及锚文本信息的方法获取领域网站的本体结构,构建对应的文本结构树。然后根据给定的分类体系结构,提出了基于共同子树的网页类别锚文本获取算法,抽取领域网站本体结构树和给定分类体系之间的共同子树,从而确定领域网站中的某一类别在给定分类体系中的确切位置,并从领域网站该类别中获取相关的网页。接着针对网页中包含的噪声信息等无关联信息,本文提出基于共同子树的领域网站网页锚文本链接及正文的算法获取高质量的领域语料文本。  针对构建后的领域语料库中的噪声语料文本,本文综合运用凝聚层次聚类和近邻传播聚类去除每个类别内的噪声文本,提高语料库语料的准确性,算法主要对一个类别中的语料文本集合进行聚类,最后将最大簇中的文本作为该类别的语料。  实验表明,基于锚文本的领域语料库自动构建方法所获得的语料达到了较高的准确率,近似于人工标注语料库的准确性。通过实验对比,经过凝聚层次聚类的语料库中的语料达到了更高的准确性。本文根据提出的语料库自动构建方法实现了一个语料库自动获取系统,该系统运用到健康领域的分类语料库自动构建。
其他文献
社会网络分析起源于20世纪30年代,是在心理学、社会学和人类学的基础上发展而来的,最初被用来研究真实社会中人与人之间的关系。随着时间的推移,许多学者致力于社会网络分析
随着无线通信技术和信息安全技术的发展,免钥门禁技术被越来越多的应用在汽车上。但现在市场上的各种汽车免钥门禁技术都存在着一定的缺陷,本文就是研究如何将安全高效的身份
随着3G网络与无线局域网的普及,无线网络通信技术已经在我们的日常生活中无处不在了。无线Mesh网(Wireless Mesh Network)简称WMN作为一种新型的无线网络,由于其自组织,自适
巷道是地下采矿时,为采矿提升、运输、通风、排水、动力供应等而掘进的通道,是矿山生产和施工的主要研究对象。巷道设计的优劣与矿山生产、运输、通风、安全等方面有直接影响
格基密码学作为后量子密码的典型代表,是一类备受关注的抗量子计算攻击的公钥密码体制,对其研究越来越具有积极的理论意义和紧迫的现实意义。格密码的发展大体分为两条主线:一
个性化推荐技术是根据用户的个人喜好以及消费记录,推荐其喜爱的商品或者信息的一种技术,近年来逐渐成为研究的热点。它普遍应用于影视、电子商务、社交平台、网络电台、音乐
随着地理信息系统的应用越来越普遍,对空间数据库的设计和响应速率的要求也越来也高。地理信息系统的开发少不了空间数据库的支持,目前空间数据库的设计与建设主要是以Arc SD
生物特征识别技术近几年取得了飞速的发展,利用人体的生物特征来鉴别个人身份成为安全验证的重要方式。对人脸识别方法和技术的研究已经是国内外模式识别领域的研究热点。目
随着数字图像处理技术的发展,医学图像处理和分析技术在医学诊断领域发挥着越来越重要的作用,比如在对大脑图像进行分割时,可以利用机器学习的方法判断老年痴呆病发的可能性;
众所周知,随着网络技术的迅猛发展,网络上多媒体资源已越来越多。在音乐检索方面,单纯的文字输入检索已经不能满足用户的需求,尤其是网络上的音乐多媒体爆炸式增长的情况下。