D-EEM:一种基于DOM树的Deep Web实体抽取机制

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:sy_haiboo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势.
其他文献
论述了信息科学对哲学的冲击和哲学的基本范畴对信息的规定性,从哲学的角度探讨了信息作为一种非物质非意识、亦物质亦意识的特殊存在,阐明了信息的中介属性.
<正>(一)概说自从冶金工业中出现了新的领域——粉末冶金以后,很快的就得到发展。这种冶金的方法是由金属粉末制取合金,因此所制成的合金叫做“粉末合金”。由于粉末合金在工
辽宁省建昌县共有56个基层党委,780个基层党支部,22364名党员。开展创先争优活动以来,建昌县委围绕“为科学发展提供持久动力,让人民群众得到更多实惠”的目标,把创先争优活动的核
国泰君安首席经济学家李迅雷先生发表博文,他在博文中称:用人均收入的增长率来作为从中央到地方发展经济的第一指标,就会让地方政府更加注重投资的效益及给老百姓带来的实惠。
中国风电装机容量位居世界第一,如何确保风力发电机组长期、稳定、安全、满负荷的运行成为行业关注的重点。风电监控系统主要用于对风力发电机组运行状态进行实时监控,在降低
<正>狐狸心眼儿特别多,平时净想着法儿骗人,他家有两棵树,一棵是香椿,一棵是臭椿,每年春天,狐狸总是在臭椿叶的外面裹上一层香椿叶,绑成一捆,冒充香椿,拿出来坑人。这天,野猪
期刊
那是三月里的一天,我去医院看望一个生病的朋友。  因为是双休日,等公交车的人很多,在我旁边站着一个老人和他的女儿,听他们的对话,是女儿陪老人去医院看病的,正好跟我同路。  那个女儿为了不让人群碰撞到父亲,一手在前面挡着人群,一手搀着父亲的胳膊上车。车上早就人满为患,这时一个姑娘站了起来,微笑着对那位老人说:“大爷,您来这里坐吧!”可那位老人却说:“谢谢了,姑娘,我站站没关系,你坐吧!”那女儿也说父
期刊
写人的文章,就是以人物描写为主的文章,人物可以是一个人,也可以是一群人。写人的文章不同于一般的记事类文章,记事类文章侧重于写一件具体的事情,落脚于事情发生的详细过程;写人的
近日,个别媒体报道称:4年前,全国公务员数量是600万人,现在已增加到1000万人,年均增加100万人。就此,国家公务员局有关负责人表示,这个说法与实际情况不符。2011年的公务员数据尚未
2013年,音乐真人秀节目甚受宠爱,几乎成为各家卫视的“标配”。从已经落幕的《我是歌手》,正在热播的《中国最强音》、《我为歌狂》、《中国梦之声》、《声所爱&#183;大地飞歌》