【摘 要】
:
网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法
【机 构】
:
中国科学院计算技术研究所,中国科学院研究生院
论文部分内容阅读
网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%
其他文献
关于诗话之起源,主要有源自钟嵘《诗品》说和源自唐人《本事诗》说两种。两说皆不无道理,但从宋初诗话之体例、内容与形成过程来看,魏晋人物品评、雅谈及以《世说新语》为代
生态文明体制改革是我国体制改革的重要组成部分。生态文明体制改革的依据是党的十八大关于"五位一体"总体布局的要求。转变政府职能是生态文明体制改革的核心,职能转变的突
<正> 自从我国汉代发明造纸以来纸张就成为制书的主要材料。然而,在收藏和流通使用过程中,经过一定的时间,在光线温湿度及其空气氧等自然条件的影响下,常常会发生化学的和物
本文通过对120例标本,分别采用IRMA、SPRIA、ELISA方法分别测定乙肝两对半和临床观察。发现由于受检抗原抗体定性结果不是阳性就是阴性,无法动态观察病情和疗效的变化,为临床
<正>近年来,由于高校扩招、部分市场需求饱和等因素,大学生就业已不容乐观,而五花八门的就业陷阱更是无处不在。面对遭受就业陷阱的大学生,人们通常在愤怒和同情之余,将目光
<正>读写结合,以读促写,以写促读,是我国语文教学的优良传统,体现了语文教学的规律。作为语文教师,应智慧地把握读与写的有机结合,深度挖掘教材,找准读写结合的训练点,实现读
随着我国正在开展的矿山生态修复建设的全面推进,对于受损矿山的修复效果微观评价受到关注。以歪头山铁矿尾矿库生态退化区为例,针对以优势种灌木植物(沙棘)修复前后的尾矿基
奥斯卡·王尔德一贯秉持着"艺术无关道德"和"艺术无关生活"的美学思想,认为现实生活中的丑陋和粗鄙会"把艺术赶到了荒野中去"。事实上,王尔德的作品是在现实的情感和事件上进
随着地下空间的开发利用,全断面隧道掘进机(TBM)已经逐渐走进中国市场,并占有一席之地。TBM是一种对隧道进行全断面施工的机电一体化的高端装备,近几年国内的交通环境和市政
近年来,随着各国对可挥发性有机物(VOC)的管控愈加严格,水性产品得到突飞猛进的发展。在涂料方面,水性涂料正日益取代传统油性涂料,其中水性聚氨酯(WPU)更是由于其优异的性能