基于竞争分类的Web信息抽取

来源 :电子学报 | 被引量 : 0次 | 上传用户:jinlong230
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出一种基于竞争分类的Web信息抽取方法,以信息片段与样本之间的相似度作为竞争力,通过信息片段对信息模板槽的竞争实现对信息片段的分类和噪声信息的过滤,直接从分类的角度抽取Web信息.较之基于规则的信息抽取方法,竞争分类法只需用户提供少量的标记样本.测试表明,该方法在没有用户提供特征提示信息的情况下,抽取信息仍能保持较高的准确率,适应性强;对数据项缺失和顺序变化较大的数据源,竞争分类法也具有较好的健壮性.
其他文献
“以夷制夷”一语的发明者为宋代王安石。“以夷制夷”旨在利用夷人控制夷人,以达到统治的目的。政治、军事、外交上的“以敌制敌”、“以敌攻敌”即由此推衍而来。假如用“以
最佳多用户检测器是非线性检测器,特征码不完全正交时,线性检测器很难逼近最佳检测器.通常无线通信信道具有时变性,要求多用户检测算法具有自适应性.本文提出了一种自适应支
所谓生命意识,也就是人们对生与死的认识。先秦儒家学派对生命意识的理解与探寻有着自己独特的智慧,认为生与死是生命意识的核心问题。这与当时的社会背景和"天人合一"的自然观
无线局域网是目前无线通信领域中的主要通信网络之一,如何有效的分析IEE802.11无线局域网中的饱和吞吐率和接入时延一直是无线局域网中的研究重点.本文引入了一种新型的分析模型
根据现代教育的特征和一般规律,实行开放教育“导学环节标准化”模式,是电大当前以及今后一段时间内深化教学改革的重要任务之一。结合远程教育导学模式标准化的基本概念和相关
为提高低空、对地跟踪性能,本文提出了基于多航迹处理的新一代电视跟踪算法,较之以前算法,它利用了更为完备的信息.本文介绍了多航迹相关算法结构,解释了算法涉及的几个主要
由于CDMA(Code Division Multiple Access)通信系统实施了功率控制,在基带不能直接用CMA进行自适应阵列的波束形成.通过分析CDMA系统的特点,我们提出在接收信号解扩后再应用C
本文对低密度校验(LDPC)码BP译码算法的量化问题(主要是接收比特信号和中间变量)进行了研究.着重讨论了量化范围、量化级数、均匀和非均匀量化等因素对译码性能的影响,给出了
写作是一项独立的创造性劳动,需要自觉性和主动性,提高写作能力归根结底要靠内在的动力,爱因斯坦说,兴趣是最好的老师。激发兴趣就是解决写作动力问题。如何激发学生的写作兴趣,最大限度地调动学生的积极性和主动性,实现作文创新?笔者有以下两个方面的浅见。    一、教师引导创新,激发习作兴趣    1.鼓励学生写生活札记。一开始,笔者并没有要求他们写什么内容,他们想写什么就写什么,没有约束,学生觉得有东西可
目的筛选粪箕笃治疗前列腺增生的高效区域。方法运用皮下注射丙酸睾酮制作前列腺增生小鼠模型,观察粪箕笃各溶剂萃取物对前列腺指数的影响。结果粪箕笃氯仿萃取物可明显降低