电子书智能入库系统的研究与实现

来源 :浙江大学 | 被引量 : 0次 | 上传用户:qiming1155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息社会的发展为人们获取信息资源带来了极大的便利,而残疾人却由于身体状况、文化背景等自身局限而难以充分享受信息社会带来的便利,反而面临着被“信息鸿沟”所边缘化的危险。为了实现信息无障碍,中国残联、国家图书馆中国盲文出版社和浙江大学共同研发了中国盲人数字图书馆。为了提高电子书入库效率从而丰富书籍资源,我们提出了针对盲人数字图书馆的OCR电子书开发电子书智能入库系统的方案。   电子书智能入库系统对电子书智能解析,提取书籍元数据、解析书籍目录、生成书籍摘要并提供入库人员全方位、多粒度的辅助工具辅助校正,最后保存到网络数据库中供读者阅读。   书籍目录解析模块从电子书的目录项中提取特征,构建向量空间模型,再利用从训练样本中学习的决策树实现对目录项的分类,随后利用目录项的类别信息,采用目录树生成算法重构书籍目录结构,最后对目录项的起始页码进行自动校正。   书籍简介生成模块利用书籍封面、内页、目录、封底等内容抽取高质量的人工简介,若无法找到人工简介则通过对句子计算相关度,构建相关度图模型,然后采用PageRank算法得到句子的重要性评价,最后用MMR算法选取重要性高、冗余度低的候选句子,经过修饰后得到书籍简介。   通过对4批电子书实验,表明目录解析模块决策树分类的准确率达到90%,而简介生成模块多文档摘要的准确率达到77%;此外用户的评价信息表明,这两个模块的整体解析效果令人满意。   电子书智能入库系统正式上线后取得了良好的应用效果,避免了此前入库的大量人力劳动,大大提高了书籍入库效率,得到了入库人员肯定。
其他文献
科学工作流技术始于工作流技术在科学实验领域的应用,随着科学实验信息化的发展,最近逐渐成为工作流的研究热点。与面向控制的传统工作流技术相比,科学工作流是数据驱动的,且须保
智能手机的大规模普及和3G网络的大范围覆盖共同带动了移动互联网的蓬勃发展。在这一波浪潮中,基于智能手机平台的应用如雨后春笋般冒出。同时,智能手机硬件计算能力的提升和
近年来,物流业发展迅猛,依靠人工来实现存储物的存储和管理的传统仓储系统已严重制约现代物流企业的发展,融合自动控制、网络管理等多种技术的智能仓储系统出现了。其中,存储量大、安全性高的密集架仓储系统在各个领域得到广泛应用。本文对比现存的密集架仓储系统的通信设计方案,针对存在的通信速率较慢、可靠性较差、成本比较高的缺点,提出了一种基于CAN总线的密集架智能仓储系统的设计方案,将现场总线控制系统中具备高性
随着人们对数据挖掘理论的不断探讨和研究,数据挖掘技术在各行各业中的应用日趋广泛和成熟。在诸多的数据挖掘技术和方法中,决策树方法是用于数据分类和预测领域的重要方法之
无线传感器网络在近年来发展迅速,它是由多个学科交叉形成的,综合了嵌入式技术、传感技术、分布式技术、无线通信技术以及现代网络等多种技术,是一种全新的信息获取平台。传感器
悬架是车辆的重要部件之一,车辆行驶的平顺性、操纵稳定性等都与悬架性能的好坏有直接的关系。汽车悬架可划分为被动悬架、半主动悬架和全主动悬架。传统的被动悬架,由于其参
船舶目标的检测在民用、商用、军用等各方面均有着重要意义,船舶检测不仅仅能为海洋部门的海域监管做出重要贡献,而且还可能影响到国家的经济和领土安全。如相关部门可以通过监控特定海域与特定港口来维护海上交通安全,军队可以通过检测某些重要军事口岸快速获取敌军的军事部署和实力等。因此研究如何准确、快速的进行船舶目标检测非常重要。随着遥感技术的高速发展,尤其是高分系列卫星的成功发射,我们所能获得的遥感图像空间分
学位
图像分割是图像处理与计算机视觉领域低层次视觉中最为基础和重要的领域之一,它是模式识别和目标检测的前提,具有重要的实际价值。但在图像中目标边界模糊的情况下,目标与背
由于每个人的人脸都有其特殊性,人脸识别系统在操作的过程中简单方便且具有无侵害性,使得人脸识别技术成为生物特征识别领域中的重要研究方向,并日益受到各个研究小组以及研
为全面提升烟草栽培管理过程中烟草病虫害的监测、预报和防控技术水平,利用软件技术构建烟草病虫害预警系统来监控烟草的生长状态已逐渐成为烟草栽培生产管理的重要研究方向