基于网页中深度并列结构的实例提取算法

来源 :第十一届全国计算语言学学术会议 | 被引量 : 0次 | 上传用户:qq38559322
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文发现了网页文件中一种普遍存在的描述性结构-深度并列结构,并使用它来进行概念实例提取.首先提取网页文件中的深度并列结构,用种子实例对其进行过滤和提取候选实例;在候选实例评价阶段,构造种子、网页文件、并列结构和候选实例之间的关系图,并使用PageRank算法评价候选实例.在提取的8个概念中平均准确率达到98.25%,平均召回率达到77.26%.比R.C.Wang的提取结果有较为明显的提升.本文发现了网页中普遍存在的深度并列结构,并用它进行实例提取,获得较好提取效果。本文算法对网民们比较关注的概念,如"电影"、"歌曲"、"NBA"等,及一些购物网站提供的商品相关的概念,如笔记本品牌、汽车品牌、服装品牌等有较好提取效果。此外,一些实例及其属性会同时出现在深度并列结构中,下步,将尝试用深度并列结构同时提取实例和属性。
其他文献
本文首先从中文维基百科官方所提供的基本数据中抽取整理出多种结构化信息;接着,对维基百科的知识组织形式进行了抽取架构,实现了一套开放的框架接口,方便了用户对这些信息的
由玉米皮、油草、麦杆儿、藤条等天然材质编制的草编品可以展示出多种面貌,既能成为崇尚纯朴自然女性们的新宠,又能为盛夏带来一丝自然的清风。 Straws made from natural i
日立CEP-321D型彩电特殊故障维修两例故障一:无声无光检查分析打开后盖,接通电源,按下开关,“噗…”一声,彩电声光全无,测电源输出电压只有8~10V,明显是保护状态。按一般维修经验推测,故障大多数出
黑政发[2007]75号大兴安岭地区行政公署,各市(不含县级市)人民政府,省政府各有关直属单位:为切实加强对全省整治非法证券活动工作的组织领导,保证整治非法证券活动工作机制
本文结合戴伊克新闻文本的话语图式,以体现文本重要事件信息的事件词所分布的句子为观测点,指出了突发事件文本由主线信息链和副线信息链构成.其中,明确提出主线信息链代表了
在中华民族改朝换代的血雨腥风里,最终演变成为人口减少60%乃至98%以上的大规模的杀戮,就达14次之多。对于孤悬于中原数千公里以外,地处偏远的河西走廊一隅的酒泉,虽直接躲过
岁月的年轮碾过历史的车辙,厚德载物的雁门大地不仅孕育了不朽的物质文明,也催生了灿烂炫目的精神文明。一个个饱经历史尘霜,蕴涵人文精神的人物风流于历史的辉煌,成为华夏文
为了对煤矿突水灾害进行提前预防,采用矿井瞬变电磁法探测技术,对煤矿顶板进行探测,然后再综合利用矿区水文地质情况以及岩矿石地球物理特征进行推断解释,圈定富水异常区位置
为明确韩家湾煤矿3401工作面采空区遗煤自燃风险范围,应用FLUENT流场分析软件,对韩家湾矿3401工作面采空区的煤自燃“三带”分布规律进行数值模拟研究.依据“三带”划分标准,
赣新KG-5186型彩电综合故障检修一例故障现象无光,无图,无声,不烧保险丝,电源STR-5142厚膜块④脚电源电压输出约30V,并且时有时无。分析与检修根据故障判断:从电源部分查起,断开行负载,接上假负载,电源电