基于文本元素的PDF表格区域识别方法研究

来源 :软件导刊 | 被引量 : 0次 | 上传用户:xiaowei_0315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了对药学PDF文献中的表格进行正确识别,减少表格抽取过程中无关文本元素混入的噪音,以更准确地进行表格结构还原和信息抽取,基于pdf2xml对药学文献PDF中的文本元素进行抽取,将文本元素分类并对表格标题区域向下延伸,从而识别表格区域。实验结果表明,该算法在单栏药学PDF和双栏药学PDF中的识别率分别达到89.7%和93.7%,比tabula工具的识别结果分别提高了10.4%和60.4%,表明该算法能有效处理表格框线缺失和分栏文献等复杂情况。
其他文献
在电力体制改革中,电价改革是最为核心的内容.本文通过对两部制上网电价分析和研究,指出了两部制上网电价的特点和优势,提出了我国上网电价的改革方向———采用两部制上网电
目的:探讨一次法和四分法治疗慢性牙周炎疗效情况。方法:分析慢性牙周炎患者100例临床资料,按治疗方法不同将患者进行分组,一次法治疗组50例和四分法治疗组50例。结果:一次法组G
为了进一步提高工业制管机的加工精度,提升企业自动化程度,减少开发成本,降低加工产生的误差,研发了基于多轴运动控制器和伺服控制系统的网络化管材追剪控制系统,采用DVP-15M
自分权化改革特别是分税制改革以后,伴随着地方政府成为一个相对独立的经济实体和财政实体而来的是地方政府间的广泛竞争。以西方学界关于地方政府竞争作为参照,以近十年来的学
21世纪,世界上的各类科学技术和专业学科都有了长足的发展和进步,比如说生物化学学科、免疫学学科等,其中作为代表性研究项目的分子生物学得到了越来越多人的关注,随着现代化
在大规模定制(Mass Customization,MC)和按订单配置(Configure-To-Order,CTO)被确认为有效的商业模式后,为合理规划有限资源获取最大利润,对于需求不确定性问题,考虑在多情境下的
目的:探讨非瓣膜性心房颤动(房颤)行经皮左心耳封堵(PCLAA)术患者的护理方法及效果。方法:20例房颤患者术前完善相关检查,排除左心耳血栓,予以精心围术期护理,加强出院指导与随访。
由于大规模的煤炭开采形成了大面积的采空区,而采空区塌陷造成的输电线路重大隐患越来越多。在考察采空区输电线路基础沉降、铁塔倾斜状况的基础上,对铁塔基础进行了受力分析
提出一种基于最大频繁模式、模式相似与属性描述相结合的多维序列模式挖掘算法MSP,该算法包括3个步骤:挖掘数据集中的最大频繁模式,每个频繁模式成为一个模式类;比较数据中各序列