基于结构分析和实体识别的信息集成

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:litao343243581
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对海量的Web数据,提出了一种基于文档结构分析和实体识别的Web信息提取和集成方法,利用XML强大的数据描述能力,灵活组织集成的Web文档信息内容.方法首先将半结构化的HTML文档转化成具有模式结构的XML文档,然后使用实体识别的技术对不同主题区域进一步抽取出格式良好的数据,最后将得到的多数据类型的信息集成到数据库中,以支持进一步的分析和查询.实验结果证明了该方法的实用和有效性.
其他文献
企业文化是现代企业市场竞争中的重要组成部分,也是企业发展战略的关键要素。一种良好的企业文化,有助于企业形成凝聚力、吸引力、成长力和竞争力。一个企业的企业文化,和企业的
周树志教授主编的<有序民主论--当代反腐建廉新战略构想>一书,是反映我国当前反腐败斗争和政治体制改革实际的一本理论著作.本书在理论上提出有序民主反腐建廉的新战略构想,
“工学”结合在高等职业教育中占有非常重要的地位。工学结合已经成为高技能应用性人才培养的模式。高职教育的本质是面向行业或岗位群,培养生产、建设、管理、服务第一线需要
目前 Web文档中充斥着各种图像 ,因此 ,对 Web上的图像进行清洗就显得非常必要 .提出了 Web图像清洗的概念 ,给出了一种基于机器学习的 Web图像清洗方案 ,并实现了基于此方案的系统 .将图像特征的提取建立在 Web文档的 DOM结构之上 ,并在决策树算法的基础上对多种特征表示及组合进行了实验和评估 .实验结果表明 ,提出的 Web图像清洗方案切实可行 ,清洗方法具有较快的速度和准确性
为验证北京市经济增长与城乡收入不平等之间的变动关系,本文采用参数和非参数方法建立回归模型,对北京市城乡居民人均收入和基尼系数之间的关系是否符合"倒U假说"进行检验,并
近百年来,钻孔灌注桩在土木工程中得到了广泛的应用。通过本人多年的施工总结,就如何在各个施工环节中充分重视施工技术与控制作了阐述。
采用文献研究和例证分析相结合的方法,揭示传统翻译观对翻译的制约,并依据解构主义理论,分析了成语在不同语境中实现最佳翻译的解构策略。结果表明:传统翻译理论中所谓的“忠实”
基于状态的因素化表达,提出了一个新的SARSA(λ)激励学习算法.其基本思想是根据状态的特征得出状态相似性启发式,再根据该启发式对状态空间进行聚类,大大减少了状态空间搜索与计
电力企业正面临着外部环境的巨变,要迎接这个巨变带来的挑战,就必须树立正确的人力资源管理理念来引导电力企业人力资源管理的改革,从而促进电力企业的可持续发展。本文就改