论文部分内容阅读
摘 要:依托共享数据,对数字化学籍档案重命名,构建以姓名为主要检索标识的系统,借助everything检索软件,实现基于文件名的高效检索。数字化档案有序存放在指定文件夹,在可视化的情况下,文件夹同样具备检索功能。高校学籍档案单机可视化检索实证操作,简单易学,软硬件投入低,在涉及人名的档案检索中优势明显,因受限于文件名长度,与基于档案内容本身的智能化检索相比,有明显的不足之处。
关键词:学籍档案;数据清洗;数据加工;可视化检索
档案网络化智能检索利用是档案工作的终极发展方向,有朝一日,你想查看自己权限内的档案,只要说一声,检索结果就瞬间呈现在你眼前。档案作为核心的信息资源,很大一部分需要限制利用,在利用时需要做好用户身份识别与权限控制。就目前的技术水平而言,做到档案网络化智能检索利用并不难,但从投入产出比来看,很多档案不值得这么做。与高端的网络化智能检索系统相比,如果以不到10万元的软硬件投入,做到只输入一个学生的姓名(遇到同名情况时增加相关检索条件)就瞬间看到该生的新生录取名册、学籍表、成绩表、毕业资格审查表、学历注册照片、学籍变动、奖惩等所有与该生有关的档案,那么,这种检索模式就更切合大多数高校档案利用工作的实际。依托共享数据,对共享数据进行清洗与加工,在此基础上对数字化学籍档案副本进行批量重命名,构建以学生姓名为主要检索标识的系统,借助everything免费检索软件,可轻松实现高校学籍档案单机可视化检索。
1 高校学籍档案可视化检索的数据准备
档案利用最大的困难就是如何解决高效检索问题。学籍档案快速准确检索依赖学生学号、姓名、专业、班级等大量数据,如果全部需要手工录入,不仅工作量大,而且很难保证准确性,为保证数据准确性而进行的审核工作量甚至比录入工作量更大。高校招生部门、教务部门有大量的准确数据,依托这些共享数据构建学籍档案可视化检索系统,可以起到事半功倍的效果。
1.1 共享电子数据的采集及补救措施。新生录取名册电子数据来自招生部门,可按省份、类别、专业、总分排序,经过一定的处理,可基本实现数据共享;学号、姓名、曾用名、班级、专业等数据来自教务系统,可完全实现数据共享。如果上述学生数据不能收集齐全,作为补救措施,可借用学历电子注册数据,1991年以后的毕业生都进行了学历电子注册,可从教务部门获取,1991年之前的学生数据,可从档案管理系统的卷内目录或校友通讯录等数据源获取,当然这些数据不能直接利用,需要做进一步的清洗与深加工。
1.2自动审核人工录入数据。人工录入数据不难,难就难在如何快速准确录入数据,数据不准确的后果往往是灾难性的,会导致整个检索体系的崩溃。高校有勤工助学的学生,发动人海战术,人工重新录入学生姓名、专业等数据时,为保证准确性,一般需采用双人双机录入,校验合格后使用,这种做法工作量成倍增加,效率低下。为提高录入效率,也可多人多机分别录入不同数据,利用共享数据进行自动审核,确保录入数据的准确性,具体做法是利用电子表格的vlookup函数。以新生录取名册录入为例,可新建电子表格,将共享数据拷贝到sheet1表中,调整单元格数据顺序,A列必须为姓名,D列为专业(也可为其他需要审核的内容),在sheet2表中A1、B1、C1、D1四个单元格分别录入页码、姓名、专业、待审核四个字段名,在D2单元格录入“=VLOOKUP(B2,’sheet1’!A:D,4,0)”(具体操作时不要录入全角双引号,下同),在sheet1表格A列中精确查找姓名与sheet2表格中B2姓名相同的学生,并将其相应D列内容链接到sheet2表格中D2单元格,此时sheet2表格中D2单元格显示“*N/A”,鼠标左键单击D2单元格,光标移至D2单元格右下角出现“ ”时压住鼠标左键向下拖动,想录入多少人就拖多少行。当在sheet2表格中B列录入学生姓名时,D列相应单元格会出现该生的专业,如果还是显示“*N/A”,则表示录入可能出错,如果经核实录入无误,则表明共享数据不全,在sheet2表格中C列相应单元格录入该生专业,以备进一步人工审核;如果出现的专业与该生不同,则可能共享数据有误或存在同名学生情况,在sheet2表格中C列录入该生专业,以备进一步人工审核。利用共享数据自动审核,既可保证数据准确性,又可成倍提高录入工作效率。sheet2表格中A列录入纸质档案实际页码,与纸质档案一一对应,待进一步对数据进行加工处理。
2 对数字化学籍档案副本重命名,实现按姓名可视化检索
学籍档案的检索以学生姓名为显著特征,由于存在同名情况,因此,仅仅靠姓名,虽然可以做到查全率100%,但必须辅以其他检索条件,借助可视化操作,才可快速准确定位所需档案。对数字化学籍档案副本重命名,既要确定命名规则,又要具备简单的软件应用知识。
2.1 数字化学籍档案副本命名规则。文书档案数字化副本命名规则,常用的是文件级档号-件内页面流水号,或文件级档号-稿本代号-稿本内页面流水号,这种命名方式虽然利于档案数字化副本批量挂接到数据库,但必须借助目录查找档案,并没有实质性提高数字化档案的检索效率。高校学籍档案数字化副本如果参照此规则命名,检索效率同样不高。为便于快速准确查找学籍档案,充分发挥数字化档案检索利用优势,需针对高校学籍档案实际,确定数字化学籍档案副本命名规则,并与档案实体一一对应(如果仅仅从利用的角度来看,数字化档案副本无需与实体档案一一对应,命名会更简单,检索效率会更高,此问题有待进一步探讨)。文件名称构成主要为“档号-姓名”,为避免同名造成的误检,可根据实际情况增加文件名称构成项目,比如学籍表、成绩表文件名构成为“档号-姓名-专业-入学年度”(档号可反映毕业年度);新生录取名册为“档号-姓名-专业-报考省份”(档号可反映入学年度);毕业资格审查表为“档号-姓名-专业”(档号可反映毕业年度);学籍变更材料、奖惩材料为“档号-文号-文件名-姓名”。为提高查准率,二字姓名后统一添加“-”,多個姓名之间用“-”连接;各校还可以根据共享数据及档案记载情况,增加文件名构成项目,比如本校成绩单记载有毕(结)业证书、学位证书号码,可利用毕业资格审查表电子数据对扫描版成绩单进行重命名,实现按证书号码精确检索。 2.2 数字化学籍档案副本的后期处理。大多数高校都实现了馆藏纸质档案数字化,由于手写档案不能进行OCR识别,部分打印版效果太差,OCR识别率太低,难以实现基于档案内容的高效检索。扫描件的查找难度比纸质档案更大,需进行进一步的加工处理。
2.2.1 利用Adobe Acrobat X Pro软件或WPS付费软件的拆分文档功能,将成册扫描的新生录取名册、毕业资格审查表按页拆分为多个文档,有多少页拆分成多少个文档(高速扫描一般都是成册扫描成一个文档,如果是单页扫描成一个文档,则省略此步),同一页的所有学生对应一个文档,由于文件名长度不能超过255个字符,当一个文档的学生人数太多时,为保证能检索到所有学生,可多拷贝几份,分别命名,形成内容完全相同但文件名不同的多个文档(这种情况并不多见,仅是例外情况下的变通措施);学籍表、成绩表拆分之前要进行相应处理,保证学生与学籍表(或成绩表)是一一对应关系;学籍变更材料、奖惩材料可根据原文件实际情况确定是一对一关系还是多对一关系。
2.2.2 灵活运用Excel或WPS以及方方格子插件等软件对电子数据进行清洗与深加工。共享电子数据要做相应清洗,比如以前有些生僻字打不出时经常会用“*”或“?”代替,由于文件名不能包含“\ / :* ?< >|”等字符,重命名前要清除这些字符,可以用查找替换的方式进行清洗,查找“*”“?”需要在查询栏分别输入“~*”和“~?”,替换栏输入正确的数据(以前打不出的生僻字,现在基本上能打出,可通过搜索引擎查找复制粘贴,比如煇字,可搜索一个火字加一个军)。由于批处理文件中不能出现多余的空格、软回车等,这些也需在WPS或EXCEL中进行清洗。为提高检索效率,电子数据要进行进一步加工,在清除空格后,二字姓名后可批量添加“-”,假设A列为原姓名数据,B列为处理后的新姓名数据,在B1单元中录入“=if(len(A1)=2,A1
关键词:学籍档案;数据清洗;数据加工;可视化检索
档案网络化智能检索利用是档案工作的终极发展方向,有朝一日,你想查看自己权限内的档案,只要说一声,检索结果就瞬间呈现在你眼前。档案作为核心的信息资源,很大一部分需要限制利用,在利用时需要做好用户身份识别与权限控制。就目前的技术水平而言,做到档案网络化智能检索利用并不难,但从投入产出比来看,很多档案不值得这么做。与高端的网络化智能检索系统相比,如果以不到10万元的软硬件投入,做到只输入一个学生的姓名(遇到同名情况时增加相关检索条件)就瞬间看到该生的新生录取名册、学籍表、成绩表、毕业资格审查表、学历注册照片、学籍变动、奖惩等所有与该生有关的档案,那么,这种检索模式就更切合大多数高校档案利用工作的实际。依托共享数据,对共享数据进行清洗与加工,在此基础上对数字化学籍档案副本进行批量重命名,构建以学生姓名为主要检索标识的系统,借助everything免费检索软件,可轻松实现高校学籍档案单机可视化检索。
1 高校学籍档案可视化检索的数据准备
档案利用最大的困难就是如何解决高效检索问题。学籍档案快速准确检索依赖学生学号、姓名、专业、班级等大量数据,如果全部需要手工录入,不仅工作量大,而且很难保证准确性,为保证数据准确性而进行的审核工作量甚至比录入工作量更大。高校招生部门、教务部门有大量的准确数据,依托这些共享数据构建学籍档案可视化检索系统,可以起到事半功倍的效果。
1.1 共享电子数据的采集及补救措施。新生录取名册电子数据来自招生部门,可按省份、类别、专业、总分排序,经过一定的处理,可基本实现数据共享;学号、姓名、曾用名、班级、专业等数据来自教务系统,可完全实现数据共享。如果上述学生数据不能收集齐全,作为补救措施,可借用学历电子注册数据,1991年以后的毕业生都进行了学历电子注册,可从教务部门获取,1991年之前的学生数据,可从档案管理系统的卷内目录或校友通讯录等数据源获取,当然这些数据不能直接利用,需要做进一步的清洗与深加工。
1.2自动审核人工录入数据。人工录入数据不难,难就难在如何快速准确录入数据,数据不准确的后果往往是灾难性的,会导致整个检索体系的崩溃。高校有勤工助学的学生,发动人海战术,人工重新录入学生姓名、专业等数据时,为保证准确性,一般需采用双人双机录入,校验合格后使用,这种做法工作量成倍增加,效率低下。为提高录入效率,也可多人多机分别录入不同数据,利用共享数据进行自动审核,确保录入数据的准确性,具体做法是利用电子表格的vlookup函数。以新生录取名册录入为例,可新建电子表格,将共享数据拷贝到sheet1表中,调整单元格数据顺序,A列必须为姓名,D列为专业(也可为其他需要审核的内容),在sheet2表中A1、B1、C1、D1四个单元格分别录入页码、姓名、专业、待审核四个字段名,在D2单元格录入“=VLOOKUP(B2,’sheet1’!A:D,4,0)”(具体操作时不要录入全角双引号,下同),在sheet1表格A列中精确查找姓名与sheet2表格中B2姓名相同的学生,并将其相应D列内容链接到sheet2表格中D2单元格,此时sheet2表格中D2单元格显示“*N/A”,鼠标左键单击D2单元格,光标移至D2单元格右下角出现“ ”时压住鼠标左键向下拖动,想录入多少人就拖多少行。当在sheet2表格中B列录入学生姓名时,D列相应单元格会出现该生的专业,如果还是显示“*N/A”,则表示录入可能出错,如果经核实录入无误,则表明共享数据不全,在sheet2表格中C列相应单元格录入该生专业,以备进一步人工审核;如果出现的专业与该生不同,则可能共享数据有误或存在同名学生情况,在sheet2表格中C列录入该生专业,以备进一步人工审核。利用共享数据自动审核,既可保证数据准确性,又可成倍提高录入工作效率。sheet2表格中A列录入纸质档案实际页码,与纸质档案一一对应,待进一步对数据进行加工处理。
2 对数字化学籍档案副本重命名,实现按姓名可视化检索
学籍档案的检索以学生姓名为显著特征,由于存在同名情况,因此,仅仅靠姓名,虽然可以做到查全率100%,但必须辅以其他检索条件,借助可视化操作,才可快速准确定位所需档案。对数字化学籍档案副本重命名,既要确定命名规则,又要具备简单的软件应用知识。
2.1 数字化学籍档案副本命名规则。文书档案数字化副本命名规则,常用的是文件级档号-件内页面流水号,或文件级档号-稿本代号-稿本内页面流水号,这种命名方式虽然利于档案数字化副本批量挂接到数据库,但必须借助目录查找档案,并没有实质性提高数字化档案的检索效率。高校学籍档案数字化副本如果参照此规则命名,检索效率同样不高。为便于快速准确查找学籍档案,充分发挥数字化档案检索利用优势,需针对高校学籍档案实际,确定数字化学籍档案副本命名规则,并与档案实体一一对应(如果仅仅从利用的角度来看,数字化档案副本无需与实体档案一一对应,命名会更简单,检索效率会更高,此问题有待进一步探讨)。文件名称构成主要为“档号-姓名”,为避免同名造成的误检,可根据实际情况增加文件名称构成项目,比如学籍表、成绩表文件名构成为“档号-姓名-专业-入学年度”(档号可反映毕业年度);新生录取名册为“档号-姓名-专业-报考省份”(档号可反映入学年度);毕业资格审查表为“档号-姓名-专业”(档号可反映毕业年度);学籍变更材料、奖惩材料为“档号-文号-文件名-姓名”。为提高查准率,二字姓名后统一添加“-”,多個姓名之间用“-”连接;各校还可以根据共享数据及档案记载情况,增加文件名构成项目,比如本校成绩单记载有毕(结)业证书、学位证书号码,可利用毕业资格审查表电子数据对扫描版成绩单进行重命名,实现按证书号码精确检索。 2.2 数字化学籍档案副本的后期处理。大多数高校都实现了馆藏纸质档案数字化,由于手写档案不能进行OCR识别,部分打印版效果太差,OCR识别率太低,难以实现基于档案内容的高效检索。扫描件的查找难度比纸质档案更大,需进行进一步的加工处理。
2.2.1 利用Adobe Acrobat X Pro软件或WPS付费软件的拆分文档功能,将成册扫描的新生录取名册、毕业资格审查表按页拆分为多个文档,有多少页拆分成多少个文档(高速扫描一般都是成册扫描成一个文档,如果是单页扫描成一个文档,则省略此步),同一页的所有学生对应一个文档,由于文件名长度不能超过255个字符,当一个文档的学生人数太多时,为保证能检索到所有学生,可多拷贝几份,分别命名,形成内容完全相同但文件名不同的多个文档(这种情况并不多见,仅是例外情况下的变通措施);学籍表、成绩表拆分之前要进行相应处理,保证学生与学籍表(或成绩表)是一一对应关系;学籍变更材料、奖惩材料可根据原文件实际情况确定是一对一关系还是多对一关系。
2.2.2 灵活运用Excel或WPS以及方方格子插件等软件对电子数据进行清洗与深加工。共享电子数据要做相应清洗,比如以前有些生僻字打不出时经常会用“*”或“?”代替,由于文件名不能包含“\ / :* ?< >|”等字符,重命名前要清除这些字符,可以用查找替换的方式进行清洗,查找“*”“?”需要在查询栏分别输入“~*”和“~?”,替换栏输入正确的数据(以前打不出的生僻字,现在基本上能打出,可通过搜索引擎查找复制粘贴,比如煇字,可搜索一个火字加一个军)。由于批处理文件中不能出现多余的空格、软回车等,这些也需在WPS或EXCEL中进行清洗。为提高检索效率,电子数据要进行进一步加工,在清除空格后,二字姓名后可批量添加“-”,假设A列为原姓名数据,B列为处理后的新姓名数据,在B1单元中录入“=if(len(A1)=2,A1