中文电子文档的数学公式定位研究

来源 :北京大学学报:自然科学版 | 被引量 : 0次 | 上传用户:mitsuaki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
区别于传统基于图像和西文文档的公式定位方法,针对中文电子文档的特点,提出一种基于机器学习和规则相结合的独立公式和内嵌公式的定位方法。设计了适合中文文档的页面分行策略和词块划分规则;选择适合中文文档的公式特征和机器学习算法;针对公式定位中的过分割问题,提出行合并与词块合并等后处理手段。实验结果表明,该方法可以有效地从中文电子文档中自动定位公式区域。此外,构建了公开可用的中文数据集,以促进不同数学公式定位方法间的相互比较及性能评估。
其他文献
上世纪九十年代是信息传输速率高速膨胀的年代,在新世纪之初,随着密集波分复用(DWDM)的发展及实用化,在一根光纤上传送几百Gbps,甚至上千Gbps的信息已不是天方夜潭的神话了。骨干
示差光度法在测定高含量NO_3 ̄-—N中的应用贡丽,关虹,崔巍(山西省水文总站)1引言据文献报道,非金属元素中高含量的F ̄-、CN ̄-、、等都可用示差分光光度法测定,取得了较好的结果。而高含量的NO ̄(-)_3—N用示差
2002年3月在德国汉诺威举行的Cebit展览会中,爱立信、摩托罗拉及诺基亚等公司,竞相推出2002年新一代的流动电话型号,其中大部份都具备接合多媒体讯号服务(MMS)装置的功能;根据市
1高层次节约用水管理目标根据《中国21世纪议程中国21世纪人口、环境与发展白皮书》及八届人大四次会议《关于国民经济和社会发展“九五”计划及2010年远景目标纲要》中提出的“全面节
朝阳沟油田Ⅲ类区块井网经过两次加密调整和重复压裂,部分储层仍无法建立有效驱动体系,油水井措施效果差,剩余油采出程度低。考虑到对压裂缝扩展条件及非均质储层改造程度认
消力池槛高的简便计算辛孝明(吕梁地区水利勘探建设总队)1引言在河道中修建堰、闸等水工建筑物后,束窄了河床,抬高了水位。这样,由堰、闸下泄水流具有较大单宽流量,有很强的冲刷能力
针对中文篇章中的零指代问题,提出一种基于中英文可比较语料进行中文零指代识别和消解的方法,并提出英文对等句的概念。利用对等句,重新定义句子间隔,并引入双语词对齐特征。
目的探究对妊娠期高血压综合征患者应用硫酸镁联合硝苯地平开展治疗的效果。方法以50例妊高症患者为对象开展研究,患者均于2016年1月—2017年12月间前往该院治疗,患者分为两
在天然河流上修建水库后,泥沙淤积对上下游影响是水库规划设计阶段中必需考虑的重要课题,随着现代高速电子计算机的发展,许多领域的应用技术相继崛起,以河流动力学为基础的“河流