【摘 要】
:
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结
【机 构】
:
东北大学信息科学与工程学院,东软集团商用软件事业部
【基金项目】
:
国家自然科学基金项目(60673139,60973021);国家“八六三”高技术研究发展计划基金项目(2008AA01Z146);中央高校基本科研业务费专项基金项目(NO90304005)~~
论文部分内容阅读
随着Web数据库的不断增长,通过对Deep Web的访问逐渐成为获取信息的主要手段.如何有效地抽取Deep Web中结果页面所包含的实体信息成为一个值得研究的问题.通过分析Deep Web结果页面的特点,提出了一种基于DOM树的Deep Web实体抽取机制(DOM-tree based entity extraction mechanism for Deepweb,D-EEM),能够有效解决Deep Web环境中的实体抽取问题.D-EEM采用基于DOM树的自动实体抽取策略,利用DOM树中的文本内容和层次结构来确定数据区域和实体区域,提高了实体抽取的准确性;另外,提出了一种基于上下文距离和共现次数的语义标注方法,有效地将来自不同数据源的抽取结果进行合成.通过实验验证了D-EEM中所采用的关键技术的可行性和有效性,同其他实体抽取策略相比,D-EEM在抽取效率及抽取准确性等方面具有一定的优势.
其他文献
论述了信息科学对哲学的冲击和哲学的基本范畴对信息的规定性,从哲学的角度探讨了信息作为一种非物质非意识、亦物质亦意识的特殊存在,阐明了信息的中介属性.
<正>(一)概说自从冶金工业中出现了新的领域——粉末冶金以后,很快的就得到发展。这种冶金的方法是由金属粉末制取合金,因此所制成的合金叫做“粉末合金”。由于粉末合金在工
辽宁省建昌县共有56个基层党委,780个基层党支部,22364名党员。开展创先争优活动以来,建昌县委围绕“为科学发展提供持久动力,让人民群众得到更多实惠”的目标,把创先争优活动的核
国泰君安首席经济学家李迅雷先生发表博文,他在博文中称:用人均收入的增长率来作为从中央到地方发展经济的第一指标,就会让地方政府更加注重投资的效益及给老百姓带来的实惠。
中国风电装机容量位居世界第一,如何确保风力发电机组长期、稳定、安全、满负荷的运行成为行业关注的重点。风电监控系统主要用于对风力发电机组运行状态进行实时监控,在降低
<正>狐狸心眼儿特别多,平时净想着法儿骗人,他家有两棵树,一棵是香椿,一棵是臭椿,每年春天,狐狸总是在臭椿叶的外面裹上一层香椿叶,绑成一捆,冒充香椿,拿出来坑人。这天,野猪
那是三月里的一天,我去医院看望一个生病的朋友。 因为是双休日,等公交车的人很多,在我旁边站着一个老人和他的女儿,听他们的对话,是女儿陪老人去医院看病的,正好跟我同路。 那个女儿为了不让人群碰撞到父亲,一手在前面挡着人群,一手搀着父亲的胳膊上车。车上早就人满为患,这时一个姑娘站了起来,微笑着对那位老人说:“大爷,您来这里坐吧!”可那位老人却说:“谢谢了,姑娘,我站站没关系,你坐吧!”那女儿也说父
写人的文章,就是以人物描写为主的文章,人物可以是一个人,也可以是一群人。写人的文章不同于一般的记事类文章,记事类文章侧重于写一件具体的事情,落脚于事情发生的详细过程;写人的
近日,个别媒体报道称:4年前,全国公务员数量是600万人,现在已增加到1000万人,年均增加100万人。就此,国家公务员局有关负责人表示,这个说法与实际情况不符。2011年的公务员数据尚未
2013年,音乐真人秀节目甚受宠爱,几乎成为各家卫视的“标配”。从已经落幕的《我是歌手》,正在热播的《中国最强音》、《我为歌狂》、《中国梦之声》、《声所爱·大地飞歌》