基于格式索引和图的文档排版格式检查方法研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:scuthh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前排版格式主要依靠人工检查,准确率和效率都较低,现有的一些自动排版格式检查算法适用范围有限,文档格式向量没有合理量化,检查准确率较低,难以重构文档的整体逻辑结构。为了解决这些问题,本课题设计隶属度表,解决格式向量的定性分量难以合理量化,段落无法跟任意逻辑标签对比的问题;设计基于n-gram索引的段落逻辑标签判断方法,提高段落逻辑标签判断的正确率和召回率;设计基于图最短路径的文档逻辑结构重建方法,解决难以重建文档逻辑结构的问题。其中隶属度表使用模糊识别的隶属度概念,将格式向量中的定性分量用隶属度根据统计量化,使得段落可以跟任意逻辑标签对比;基于n-gram索引的段落逻辑标签判断算法借鉴拼写校正中的n-gram索引,将格式向量切分成多个n-gram,使得向量相似度计算时各分量彼此独立,提高了计算精确度;基于图最短路径的文档逻辑结构重建方法在段落逻辑标签判断的基础上生成图,利用最短路径排除掉多余的逻辑标签,从而重建逻辑结构。实验证明,这3种方法结合能够合理量化向量,准确判断段落逻辑标签,完整重构文档逻辑机构,不仅可以有效进行排版格式检查,也为文档复用和文档检索提供了基础。
其他文献
基于组件的开发已逐渐成为软件开发的趋势,它不仅可以提高组件的重用率,避免了重复开发,还提高了整个软件开发的效率并降低了开发的成本。但是,基于组件的系统对于组件间的互
随着市场经济的发展,洗钱活动更加多样化,更加隐蔽化,给银行和金融行业的监控和管理带来很大难度和障碍。一方面,洗钱活动危害金融机构的声誉和效益。不正常的金融交易影响银行信
随着数字化城市的发展,城市管理进入信息化时代,百姓通过数字化平台反映城市管理中存在的问题。由于他们年龄、学历、表达方式存在差异,导致城市管理投诉语料存在格式不规范,表达
网格是90年代中期学术界的新名词,最初用来表示能象传统的电力和水资源一样随时提供计算服务的分布式计算系统。随着技术的演进和网格概念扩展到商业领域,网格的定义有了些微并
面对互联网中各种各样的威胁与攻击,信息的接收方有必要对其收到的信息进行消息认证。消息认证的目的在于鉴别信息发送者的身份,验证信息在传送过程中是否被第三方损坏、修改
随着计算机技术和网络技术的发展,电子政务迅速地在各国得到广泛应用。然而,来自网络、单位内部的安全威胁严重制约着电子政务的发展。访问控制是网络安全的一个重要组成部分
地震是人类最具威胁的自然灾害之一,它具有突发性和不可预测性。破坏性地震会给国家经济建设和人民生命财产安全带来巨大的危害和损失。地震灾害规模的大小及其造成损失的程度
办公文档作为办公信息的重要载体,如今随着网盘、云存储、文库等技术的发展已广泛应用于互联网信息传输和资源共享。但是目前的在线文档处理技术还不能很好处理办公文档的多人
软件是否严格按照设计要求实现,是软件质量评估的重要标准,是软件测试的一项重要工作。人工遍历的方法分析软件设计与实现的一致性是复杂费力的,并且需要测试人员具备丰富的编程
Web服务是架构在XML和Internet技术之上的分布式计算技术。如何正确、高效得从庞大的Web服务群中找到自己所需的服务越来越具有挑战性。主流的Web服务发现采用基于UDDI、WSDL