Web环境下半结构化信息抽取方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:hnkfxwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了在Web环境下发现和抽取半结构化网页信息的理论和方法,主要包括:基于结构聚类的半结构化网页类的发现和筛选方法;提出了基于最大叶节点映射的树结构相似度衡量方法,与经典的树编辑距离方法相比,大大提高了计算速度,另外也通过压缩叶节点的路径降低了计算过程中所需的存储空间.提出了网页的两步聚类方法,在算法中利用了网页结构相似关系的传递性来推导网页之间的相似程度,从而大大减少计算网页之间相似程度的次数,提高了聚类速度.基于XPath的半结构化信息抽取方法;提出了一种半自动化的包装器生成方法,使用XPath作为抽取模式的描述语言,充分利用了网页的结构特征,其抽取准确率和处理速度都比较高,已经能够满足于大规模网络信息抽取的实际需求.提出了一种基于机器学习的包装器生成方法,在该方法中只需要用户标注少量的学习样本就可以通过该文提出的EGA算法来自动生成每个待抽取目标对应的抽取模式.这样就提高了包装器生成过程的自动化程度.通过在标准测试集上的对比测试,该文提出方法要明显优于同类算法.面向特定领域的全自动化信息抽取方法;新闻是目前网上用户非常关心的一个领域,因此抽取网上新闻并提供统一的新闻服务平台是项意义非常重大的工作.在该文中通过对海量新闻网页的分析,发现这类型的网页具有很明显的内容和结构方面的特征.针对这些特征,该文提出了一套定位和识别算法,并利用这些算法实现了针对新闻领域的全自动信息抽取.该文提出的理论与方法,已在国家重点基础研究发展规划(973)课题的原型系统COMMIX中得到验证和展示.在该文中也对COMMIX系统的实现也作了简要的叙述.
其他文献
随着电子商务、电子政务、金融业务的电子化的飞速发展,对于这些构架在网络上层的信息服务的安全需求也越来越高.越来越多的安全协议应运而生,用于提供在不安全的网络环境下
学位
生物组织的弹性(硬度)变化往往与其病理变化有关,因此组织的弹性信息能作为许多疾病的诊断依据,如肿瘤、乳腺癌等。超声弹性成像是继黑白B超和彩超之后的一种新的超声成像技
随着红外焦平面阵列尺寸的不断扩大,以及对图像数据能实时显示的要求,军事通讯领域对传输接口技术的要求也越来越高,高速数据传输技术已经成为了微电子技术研究的焦点领域之一。
结核病作为全球性的健康问题,其发病率和死亡率逐年上升,每年导致8百万人发病,2-3百万人死亡。世界卫生组织已将结核病列为重点控制的三种传染病之一,强调遏制结核病行动已到了刻
随着中国民航事业的飞速发展,地空数据链地面应用ACARS系统得到了广泛的应用,已经成为航空公司必不可少的"生产工具".该课题研发的地空数据链地面应用监控系统作为其重要组成
自噬是一个自我清理的过程,通过细胞质蛋白质和细胞器被隔离在一个双层膜自噬体中,然后它通过与溶酶体融合形成自噬溶酶体来降解细胞质蛋白,大分子和细胞器,从而实现细胞本身
毫米波综合孔径成像作为一种无源被动成像技术,利用若干小天线合成等效孔径为大尺寸天线的被动接收阵列,利用高灵敏度毫米波接收机对目标场景辐射的毫米波信号进行探测。结合相
近年来,随着互联网和移动网络的快速发展,多媒体业务得到了广泛的应用。由于系统平台和终端的多样性,多媒体业务通常要求视频数据能适应各种平台和网络,并能兼容各种新老设备
本实验通过制备AFB1免疫抗原,免疫动物获得了多克隆抗体,将制备出的抗体与合适的微球载体化学偶联,得到AFB1免疫亲和微球。采用HPLC法检测偶联反应对抗体活性的影响。主要的研究