基于XML的文档处理技术的研究与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:fxmen2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业、组织的规模日益扩大,就需要对企业中流通的文档进行挖掘以求信息、知识的共享和流通。企业中流通的文档基本上来自于异构数据源,因此,如何从这些异构文档中抽取有效信息并加以保护成为一个研究热点。虽然目前对文本处理技术已经有了很大的发展和应用,但是存在一些问题有待研究:如何抽取有效的文本;如何抽取标记文档中的数据信息;如何有针对性的对XML文档的敏感数据进行加密。 针对以上三个问题,根据不同文本和XML文档的映射关系,本文在文档结构分析的基础上提出了流处理模型,并结合元素树模型,提出了一种将Word、Excel以及HTML文档文件解析成为有语义的XML文档的方法。从文档处理的角度,提出一种有利于文本挖掘的方法。在完成异构数据转换的基础上,来实现XML文档的存储安全。 本文综合运用了Java编程技术、XML编程技术、XML安全规范以及安全访闯策略。通过继承和二次开发多个开源项目,例如Apache POI、HTMLParser、JExcel、PDFBox等,来实现文档处理系统的两大功能:文档转换和文档保护。文中详细描述了系统的各部分的分析、设计和实现。 本研究工作主要是为了满足宏观层次的知识挖掘项目的需要,为以后工作的开展积累经验。随着研究的进展,和系统最终功能的集成,本系统的主要接口包可以作为网络中间件填充到Web应用中去。
其他文献
识字是语文的基础,培养学生的语文核心素养,识字教学是个重点.在识字教学中我们应该充分考虑低年级学生的特点,采用多种形式,突出识字的“趣”与“乐”,使学生真正喜欢上汉字
教师自觉将小学品德课程研究校本化,是当今教学研究的新的运作模式.教师源于自己多年的教学经验来了解学生存在的问题,进行一对一的辅导,这种大大提高了教学效率,也提升了教
一个年轻老师只有通过不断学习,不断反思,用心做事,才能实现师生共同成长.当一个教师真心想教育好孩子时,没有方法也会摸索或创造方法.
高考在很大程度上对高中语文作文的学习和训练起指引作用.高考作文考纲要求学生能写论述类、实用类和文学类文章,具体以议论文和记叙文为主.相应的,高考作文评价等级标准也是
在传统交互设计教学的基础上,应充分发挥相关软硬件的作用.尝试利用Arduino开发板作为交互设计课程的电控单元,对简单电路进行功能设计并实现.学生在完成外观设计的基础上,辅
为筛选适宜在烟草后种植的晚稻品种,福建省邵武市开展了3年的优质稻种植比较试验,在6个优质稻品种中,筛选出甬优5552和甬优1540,具有生育期适中、米质好、产量高的特性,适宜
心理支配行为.侵犯动机是校园欺凌行为中最为主要的一种社会心理.本文拟借鉴心理学领域已被公认的学术理论,对该心理动机的生成和表现作基本的探讨和解释,以资教育实践.
本文正是在这样的背景下对建筑节能的经济激励政策展开研究的,其目的旨在为政府制定行之有效的节能政策提供理论依据和实例论证,以推动中国建筑节能战略的实施,加快建筑节能工作
人称代词在文字统筹、文学创作等文学领域均所涉及,且运用范围较为广泛,在日常用语中人称代词扮演着重要角色,是语言文学的主要表现类型.现代汉语文学翻译中会涉及诸多人称代
为筛选出适宜甘肃省陇西县及周边县区种植的糜子新品种,在全膜双垄沟基础上采用复种点播的方式开展种植试验,调查8个糜子新品种(系)的适应性.试验过程中,参试新品种(系)均表