中英文文档中公式定位

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户:heiyun28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技文献中存在大量的中英文与公式的混排现象,如果在识别前能正确把它们进行区分并使用不同的0CR将可以极大地提高文档的识别正确率.本文通过结合两个不同的OCR识别结果以及连通体分析成功实现了中文与英文或公式的区分,然后再进一步通过上下标以及特殊字符的识别,并进行一些语义分析实现公式的定位.实验结果表明,此方法能比较有效的实现中英文文档中的公式定位.
其他文献
网页检索结果中,用户经常会得到内容相同的冗余页面.本文提出了一种通过新闻主题要素学习新闻内容的新闻网页去重算法.该方法的基本思想是:首先,抽取新闻要素中关于事件发生
去京师西南遥约万九百余里。有城曰拉萨。拉萨西藏都会也。城建于南北朝之间。距今千四百余年。唐时属党项吐蕃。所谓逻娑是也。元封喇嘛帕斯八为法王。驻居此地。始倡红教。
本文通过对知识管理和机器翻译相关技术的对比分析,提出了以翻译知识库的构建为核心,以翻译知识的采集积累、加工处理和共享应用为手段,构建开放、动态的机器翻译系统的新思
apalutamide是一种由杨森制药公司研发的第二代非甾体类雄激素受体抑制剂.2018年2月14日,美国食品和药物管理局批准apalutamide用于治疗非转移性去势抵抗性前列腺癌.本文主要
本文介绍了中科院计算所机器翻译课题组在基于句法的统计机器翻译方面的研究工作.文章提出了两种基于句法的统计翻译模型.第一种模型定义了一种基于源语言句法分析的树到串对
在统计机器翻译领域,基于短语的翻译模型的性能优于基于词的翻译模型.目前在基于短语的所有机器翻译模型系统中,源语言都是以均匀分布的方式进行短语切分,然后将所有可能的短
会议
在一九四八年,一百多万公顷上等的土地已经从摩洛哥农民手中移到四万五千个欧洲人的手中了,六百五十万摩洛哥乡民就只剩了七百万左右公顷贫瘠的土地,其中有一半是不可耕地!
机器翻译仍将是21世纪人工智能领域的难题之一.汉藏机器翻译的复句处理不仅要依托于分句(短语)的处理,而且还要超越分句(短语)去深入考察复句内各分句之间的内在联系,实现藏
本篇文章通过对汉语中谓词以及结构辅助词的分析研究提出了一种基于谓词驱动模板的机器翻译方法.谓词驱动模板方法将谓词以及结构辅助词固化在模板中,实现句子级的结构精确匹
会议
本文提出了一种基于规则的多层过滤进行机器翻译的方法.该方法实现了英语人名向维吾尔语的自动翻译.该方法不同于传统的机器翻译方法,它不需要建立丰富,完整的词库.本机器翻
会议