高校学籍档案单机可视化检索实证研究

来源 :档案管理 | 被引量 : 0次 | 上传用户：zhumengen

【摘要】

：

【作者】

：

孙学政

【出处】

：

档案管理

【发表日期】

：

2019年3期

【关键词】

：

学籍档案数据清洗数据加工可视化检索

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：依托共享数据，对数字化学籍档案重命名，构建以姓名为主要检索标识的系统，借助everything检索软件，实现基于文件名的高效检索。数字化档案有序存放在指定文件夹，在可视化的情况下，文件夹同样具备检索功能。高校学籍档案单机可视化检索实证操作，简单易学，软硬件投入低，在涉及人名的档案检索中优势明显，因受限于文件名长度，与基于档案内容本身的智能化检索相比，有明显的不足之处。
　　关键词：学籍档案；数据清洗；数据加工；可视化检索
　　档案网络化智能检索利用是档案工作的终极发展方向，有朝一日，你想查看自己权限内的档案，只要说一声，检索结果就瞬间呈现在你眼前。档案作为核心的信息资源，很大一部分需要限制利用，在利用时需要做好用户身份识别与权限控制。就目前的技术水平而言，做到档案网络化智能检索利用并不难，但从投入产出比来看，很多档案不值得这么做。与高端的网络化智能检索系统相比，如果以不到10万元的软硬件投入，做到只输入一个学生的姓名（遇到同名情况时增加相关检索条件）就瞬间看到该生的新生录取名册、学籍表、成绩表、毕业资格审查表、学历注册照片、学籍变动、奖惩等所有与该生有关的档案，那么，这种检索模式就更切合大多数高校档案利用工作的实际。依托共享数据，对共享数据进行清洗与加工，在此基础上对数字化学籍档案副本进行批量重命名，构建以学生姓名为主要检索标识的系统，借助everything免费检索软件，可轻松实现高校学籍档案单机可视化检索。
　　1 高校学籍档案可视化检索的数据准备
　　档案利用最大的困难就是如何解决高效检索问题。学籍档案快速准确检索依赖学生学号、姓名、专业、班级等大量数据，如果全部需要手工录入，不仅工作量大，而且很难保证准确性，为保证数据准确性而进行的审核工作量甚至比录入工作量更大。高校招生部门、教务部门有大量的准确数据，依托这些共享数据构建学籍档案可视化检索系统，可以起到事半功倍的效果。
　　1.1 共享电子数据的采集及补救措施。新生录取名册电子数据来自招生部门，可按省份、类别、专业、总分排序，经过一定的处理，可基本实现数据共享；学号、姓名、曾用名、班级、专业等数据来自教务系统，可完全实现数据共享。如果上述学生数据不能收集齐全，作为补救措施，可借用学历电子注册数据，1991年以后的毕业生都进行了学历电子注册，可从教务部门获取，1991年之前的学生数据，可从档案管理系统的卷内目录或校友通讯录等数据源获取，当然这些数据不能直接利用，需要做进一步的清洗与深加工。
　　1.2自动审核人工录入数据。人工录入数据不难，难就难在如何快速准确录入数据，数据不准确的后果往往是灾难性的，会导致整个检索体系的崩溃。高校有勤工助学的学生，发动人海战术，人工重新录入学生姓名、专业等数据时，为保证准确性，一般需采用双人双机录入，校验合格后使用，这种做法工作量成倍增加，效率低下。为提高录入效率，也可多人多机分别录入不同数据，利用共享数据进行自动审核，确保录入数据的准确性，具体做法是利用电子表格的vlookup函数。以新生录取名册录入为例，可新建电子表格，将共享数据拷贝到sheet1表中，调整单元格数据顺序，A列必须为姓名，D列为专业（也可为其他需要审核的内容），在sheet2表中A1、B1、C1、D1四个单元格分别录入页码、姓名、专业、待审核四个字段名，在D2单元格录入“=VLOOKUP（B2，’sheet1’！A：D，4，0）”（具体操作时不要录入全角双引号，下同），在sheet1表格A列中精确查找姓名与sheet2表格中B2姓名相同的学生，并将其相应D列内容链接到sheet2表格中D2单元格，此时sheet2表格中D2单元格显示“*N/A”，鼠标左键单击D2单元格，光标移至D2单元格右下角出现“ ”时压住鼠标左键向下拖动，想录入多少人就拖多少行。当在sheet2表格中B列录入学生姓名时，D列相应单元格会出现该生的专业，如果还是显示“*N/A”，则表示录入可能出错，如果经核实录入无误，则表明共享数据不全，在sheet2表格中C列相应单元格录入该生专业，以备进一步人工审核；如果出现的专业与该生不同，则可能共享数据有误或存在同名学生情况，在sheet2表格中C列录入该生专业，以备进一步人工审核。利用共享数据自动审核，既可保证数据准确性，又可成倍提高录入工作效率。sheet2表格中A列录入纸质档案实际页码，与纸质档案一一对应，待进一步对数据进行加工处理。
　　2 对数字化学籍档案副本重命名，实现按姓名可视化检索
　　学籍档案的检索以学生姓名为显著特征，由于存在同名情况，因此，仅仅靠姓名，虽然可以做到查全率100%，但必须辅以其他检索条件，借助可视化操作，才可快速准确定位所需档案。对数字化学籍档案副本重命名，既要确定命名规则，又要具备简单的软件应用知识。
　　2.1 数字化学籍档案副本命名规则。文书档案数字化副本命名规则，常用的是文件级档号-件内页面流水号，或文件级档号-稿本代号-稿本内页面流水号，这种命名方式虽然利于档案数字化副本批量挂接到数据库，但必须借助目录查找档案，并没有实质性提高数字化档案的检索效率。高校学籍档案数字化副本如果参照此规则命名，检索效率同样不高。为便于快速准确查找学籍档案，充分发挥数字化档案检索利用优势，需针对高校学籍档案实际，确定数字化学籍档案副本命名规则，并与档案实体一一对应（如果仅仅从利用的角度来看，数字化档案副本无需与实体档案一一对应，命名会更简单，检索效率会更高，此问题有待进一步探讨）。文件名称构成主要为“档号-姓名”，为避免同名造成的误检，可根据实际情况增加文件名称构成项目，比如学籍表、成绩表文件名构成为“档号-姓名-专业-入学年度”（档号可反映毕业年度）；新生录取名册为“档号-姓名-专业-报考省份”（档号可反映入学年度）；毕业资格审查表为“档号-姓名-专业”（档号可反映毕业年度）；学籍变更材料、奖惩材料为“档号-文号-文件名-姓名”。为提高查准率，二字姓名后统一添加“-”，多個姓名之间用“-”连接；各校还可以根据共享数据及档案记载情况，增加文件名构成项目，比如本校成绩单记载有毕（结）业证书、学位证书号码，可利用毕业资格审查表电子数据对扫描版成绩单进行重命名，实现按证书号码精确检索。　　2.2 数字化学籍档案副本的后期处理。大多数高校都实现了馆藏纸质档案数字化，由于手写档案不能进行OCR识别，部分打印版效果太差，OCR识别率太低，难以实现基于档案内容的高效检索。扫描件的查找难度比纸质档案更大，需进行进一步的加工处理。
　　2.2.1 利用Adobe Acrobat X Pro软件或WPS付费软件的拆分文档功能，将成册扫描的新生录取名册、毕业资格审查表按页拆分为多个文档，有多少页拆分成多少个文档（高速扫描一般都是成册扫描成一个文档，如果是单页扫描成一个文档，则省略此步），同一页的所有学生对应一个文档，由于文件名长度不能超过255个字符，当一个文档的学生人数太多时，为保证能检索到所有学生，可多拷贝几份，分别命名，形成内容完全相同但文件名不同的多个文档（这种情况并不多见，仅是例外情况下的变通措施）；学籍表、成绩表拆分之前要进行相应处理，保证学生与学籍表（或成绩表）是一一对应关系；学籍变更材料、奖惩材料可根据原文件实际情况确定是一对一关系还是多对一关系。
　　2.2.2 灵活运用Excel或WPS以及方方格子插件等软件对电子数据进行清洗与深加工。共享电子数据要做相应清洗，比如以前有些生僻字打不出时经常会用“*”或“？”代替，由于文件名不能包含“＼ / ：* ？< >|”等字符，重命名前要清除这些字符，可以用查找替换的方式进行清洗，查找“*”“？”需要在查询栏分别输入“～*”和“～？”，替换栏输入正确的数据（以前打不出的生僻字，现在基本上能打出，可通过搜索引擎查找复制粘贴，比如煇字，可搜索一个火字加一个军）。由于批处理文件中不能出现多余的空格、软回车等，这些也需在WPS或EXCEL中进行清洗。为提高检索效率，电子数据要进行进一步加工，在清除空格后，二字姓名后可批量添加“-”，假设A列为原姓名数据，B列为处理后的新姓名数据，在B1单元中录入“=if（len（A1）=2，A1

其他文献

扫描放样边坡法及精度分析

根据工程测量中已用的方法，进行了理论上的系统总结分析，原理推导准确，实际操作熟练，程序分明，精度的分析根据充分、客观，只要在仪器的使用上注意，还可大大提高精度。“对《工程测量

期刊