面向半结构化文本的数据抽取技术研究及应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:cycblb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着越来越多的传统行业向互联网转型,垂直领域信息化程度不断提高,数据整合,信息多元化和兴趣垂直化使得通用搜索引擎已经不能满足垂直领域用户的需求。这些用户迫切需要一个数据分类更细致、整合更全面、专业程度更高的搜索工具。它以一定的策略从Internet上获取原数据,对其进行理解和抽取,并通过索引和关联对用户提供检索和导航服务。在这种需求的推动下,垂直搜索引擎应运而生。垂直搜索引擎的关键技术主要包括:爬取、抽取和索引,由于垂直领域存在大量半结构化文本数据,这些数据往往具有较强的领域知识、多样的格式、不规则的结构,尤其是TXT格式的半结构化文本,相比于HTML文档缺少标签信息和固定分隔符。所以抽取这些半结构化数据中蕴含的有用信息是一件极具挑战的工作。本文研究了半结构化文本处理的相关技术,结合赛鸽垂直领域半结构化数据的特点,分析领域知识,建立规则库,通过对条件随机场和半自动化标注的研究解决抽取过程中的实体识别问题,采用规则和统计相结合的混合抽取技术设计实现了赛鸽垂直搜索引擎中的抽取系统,取得良好的效果。
其他文献
目的探究健康教育在儿童蛲虫病防治中的效果。方法选取2014年3月-2015年3月江门市蓬江区44所幼儿园在园儿童6 910例。其中郊区9所,在园儿童1 050例;城区35所,在园儿童5 860例
<正>幼儿的自主学习是指孩子在幼儿园中按自己的想法和心愿,根据自己的喜好、自己的水平、自己的行为方式,独立地来接触事物,获得信息,取得经验,提升认识,主动地发挥自己的主
期刊
《民事诉讼法》《行政诉讼法》的修改,公益诉讼成为法律制度正式施行。本文以试点地区之一安徽省检察机关在2017年办理的全部公益诉讼案件为样本集,重点对其中的行政公益诉讼
模糊优化是处理带不确定性的优化问题的一种模型和方法。解集的刻画不仅有利于理解具有多个最优解的优化问题的解的结构,而且对设计求解的各种算法具有重要的理论意义。在研究模糊优化问题的解集刻画时,我们发现模糊凸性扮演着重要的角色。然而,我们注意到一些模糊优化问题并不满足模糊凸性条件。因此,本文旨在引进几类新的模糊函数的广义凸性,并与已有文献的模糊凸性进行比较,然后讨论其中一些广义凸模糊函数的性质,并在此基
本文选择了介孔硅材料MSU-F和聚乙二醇基(PEG)水凝胶,将漆酶分别以吸附/交联法和包埋/交联法固定,从酶的固定量、活性回收率等方面优化固定过程,并选择典型的内分泌干扰物双酚A
目的提高以急性肾损伤为表现的急性淋巴细胞白血病的认识。方法回顾分析两例急性白血病合并有急性肾损伤的病例并复习文献。结果经化疗及CRRT等支持治疗后肾功能逐渐恢复,急
<正>在庐山松树路的西端,有一片奇形怪状的岩石,其中一块巨石上写着"虎守松门"4个大字。这4个正楷大字遒劲有力,如果不看边款,谁都不会相信它出自20世纪30年代一位70多岁的老
油菜素内酯(Brassinosteroids,BRs)是一类广泛存在于植物体内的甾醇类激素,它参与调节植物生长发育的多个过程,如细胞分裂和细胞伸长、光形态建成、开花、育性及衰老等。BRI1
苏云金杆菌或转基因植物产生的苏云金杆菌杀虫晶体蛋白毒素对靶标害虫毒杀能力很强,是一种非常重要的环境友好的生物农药,为植物提供了良好的保护作用。但是由于其广泛使用,
工业上蓝光芯片结合黄色荧光粉方式出射的白光色温偏高,显色指数较低,因此紫外芯片与RGB荧光粉复合结构得以推广,但其较低的发光效率一直困扰着LED照明行业。为了解决这一问题,本文从RGB荧光膜结构设计角度出发,通过对RGB荧光膜进行模拟仿真并结合实验验证的方法,设计对比了四种具有不同点阵排布结构的荧光膜的光学性能,并通过研究荧光像素点的尺寸对封装LED出光均匀性的影响,确定了最佳的结构方案。通过实验