论文部分内容阅读
作者简介:李诗琪(1992.-),女,辽宁省新民县人,河北大学管理学院2010级档案学在读本科生。
摘要:微博,即微型博客,是时下最流行的网络交互模式。在微博平台上每分钟都会有数以万计的信息产生,小到一条点评,大到一条重大事件的实时报道,微博以一种特殊的方式承载着我们这一时代的社会记忆。在这快速发展的信息时代,利用微博的社会记忆性将其作为档案保存下来,留给后代去利用是我们这一代人的责任和义务。
关键词:微博;社会记忆;档案
1.微博与社会记忆
微博,是对微博客的简称,用户在140个字内发布信息,这是一个基于用户关系,进行信息分享和传播的平台。中国互联网信息中心(CNNIC)于2013年1月15日发布《第31次中国互联网络发展状况统计报告》。《报告》显示,截至2012年12月底,我国微博用户规模为3.09亿,较2011年底增长了5873万,增幅达到23.5%。网民中的微博用户比例较上年底提升了六个百分点,达到54.7%。[1]
社会记忆是指“人们在生产实践和社会生活中所创造的一切物质财富和精神财富以信息的方式加以编码、储存和重新提取的过程的总称”。近代以来,档案工作与集体记忆的关系被不断强化、深化和认同。“集体记忆”、“社会记忆”日益成为档案领域的“高频词”,受到档案工作者的高度关注。[2]
2.微博的档案性的分析
2.1微博的档案性
国家档案局技术部主任付华称,随着中国网民数量的增加,信息交流的通畅,微博这一具有时代特色的信息载体将进入档案。在突发事件中,微博可以迅速传递第一时间、第一现场的情况,这是传统媒体无法企及的。微博这一难得的信息资源将更好地还原真相、记录历史,将成为未来档案构成的一部分。[3]
中华人民共和国档案行业标准《档案工作基本术语》对档案的定义表述是:“国家机构、社会组织或个人在社会活动中直接形成的有价值的各种形式的历史记录。”[4]
2.2“微博档案”国外情况
现在,国外很多国家都在尝试将微博、博客这类社交媒体中的信息保管,建立“网络档案馆”、“网络图书馆”等。
2010年4月,美国国会图书馆与Twitter公司达成一项协议。根据协议内容,Twitter将向美国国会图书馆提供所有twitter信息。美国国会图书馆先是收录了2006年-2010年4月期间产生的210亿条推文,后来又补充了从那时起直至现在的1500亿条推文。
盖尔·奥斯特伯格表示:“收集140字的twitter信息正好符合美国国会图书馆的使命——收集美国故事和获取有价值资料的使命。”[5]国会图书馆称,Twitter推文是一种重要的新型馆藏资料。
3.微博的档案化
随着互联网的发展,微博信息量越来越庞大,很多信息转瞬即逝,在分秒间我们就很可能错过了很多有价值的档案资源。但是,如何将微博作为档案收集、保存起来还存在很多问题,存在问题的同时也有很多新技术可以帮助我们更好的实现微博档案化。
3.1存在的问题
3.1.1信息质量参差不齐
真实、有价值的微博是社会记忆的真实体现,所以我们应该将微博作为档案保存起来。20世纪80年代以来,欧美各国的档案研究人员逐步坚信档案应反映其产生的社会记忆,强调档案应担负起保存“社会记忆”的职能,鉴定保证了档案的真实性和有价值性。只有选择能反映“人类生活的方方面面”的“社会记忆”,才能为子孙后代保存丰富的社会史实,为人类文明留下完整的社会记录。[6]
3.1.2分门别类,合理保存
对于微博档案的保存,首先要做的就是分门别类,制定通用的标准,根据微博的内容进行分类。在分好类后,我们还要利用合理的载体和保存办法,通过先进的技术,将微博档案进行保存。关于微博档案保存技术和方法,是分析现在和可预见的未来的计算机技术水平,确定能够准确、完整、长期地保存那些具有重要价值的微博档案的技术和方法。[7]
3.2解决方法
美国国会图书馆副馆长罗伯特·迪萨德表示:“Twitter的功能是生产和发布信息,而我们要收集这些信息,并提供存取便利。这两种方式完全不一样。”[10]
3.2.1“蜘蛛人”
“蜘蛛人”用网页超链接结构摸索到网页上,抓取相关的网页发送到搜索引擎服务器上,按照一定的方式将网页进行排序,网页就被存放在一个巨大的紧密管理的组成搜索引擎索引的数据库中,以等待为用户提供相关信息。“蜘蛛人”抓取网页不仅适用于静态网页,也同样适用于动态网页。我们同样可以利用“蜘蛛人”软件进行微博抓取,而且可以进一步进行排序和保存在数据库中。
3.2.2“数据挖掘”相关技术及“云方案”
在“大数据”时代下,数据挖掘、数据仓库等成为我们日前研究的热点。在这里我们主要探讨“数据挖掘”中的挖掘潜在数据关系,建立数据联系,对数据进行实时追踪,例如将微博信息保存在庞大的数据仓库中,并对微博进行实施跟踪,增加更新新信息。
例如美国国会图书馆对Twitter信息的收集。"Twitter信息之所以难于整理,一方面是由于数据量过于庞大,另一方面则是因为每天都会有新数据不断加入进来,而这种增长速度仍在不断提升,"官方指出。"此外,Twitter信息的种类也越来越多样。普通Twiiter信息、利用软件客户端发出的自动回复信息、手动回复信息、包含链接或者图片的信息等等,这一切让我们无从下手。[11]而这都可以依靠数据挖掘去解决,将庞大、繁多的信息利用数据仓库存储并分类保管,继而实时跟踪。
我们档案工作者应该站在一个高度,前瞻性地关注微博档案化这一重要问题,现阶段关于微博档案的研究还没有一个成熟的理论,微博档案的收集、鉴定和保存还存在很多问题,缺乏具体、可操作的实施规范,随着微博在社会中愈加重要,微博档案化必将引起社会更大的关注。
参考文献:
[1]耿磊.社会记忆理论影响下对档案历史真实性的再思考[J].档案时空,2012,(2).
[2]冯惠玲.档案学概论(第二版)[M].北京:中国人民大学出版社,2006.
[3]T·库克,李音.铭记未来——档案在建构社会记忆中的作用[J].档案学通讯,2002,(2).
[4]姬申建,路江曼.“微博档案”研究[J].浙江档案,2012,(7).
摘要:微博,即微型博客,是时下最流行的网络交互模式。在微博平台上每分钟都会有数以万计的信息产生,小到一条点评,大到一条重大事件的实时报道,微博以一种特殊的方式承载着我们这一时代的社会记忆。在这快速发展的信息时代,利用微博的社会记忆性将其作为档案保存下来,留给后代去利用是我们这一代人的责任和义务。
关键词:微博;社会记忆;档案
1.微博与社会记忆
微博,是对微博客的简称,用户在140个字内发布信息,这是一个基于用户关系,进行信息分享和传播的平台。中国互联网信息中心(CNNIC)于2013年1月15日发布《第31次中国互联网络发展状况统计报告》。《报告》显示,截至2012年12月底,我国微博用户规模为3.09亿,较2011年底增长了5873万,增幅达到23.5%。网民中的微博用户比例较上年底提升了六个百分点,达到54.7%。[1]
社会记忆是指“人们在生产实践和社会生活中所创造的一切物质财富和精神财富以信息的方式加以编码、储存和重新提取的过程的总称”。近代以来,档案工作与集体记忆的关系被不断强化、深化和认同。“集体记忆”、“社会记忆”日益成为档案领域的“高频词”,受到档案工作者的高度关注。[2]
2.微博的档案性的分析
2.1微博的档案性
国家档案局技术部主任付华称,随着中国网民数量的增加,信息交流的通畅,微博这一具有时代特色的信息载体将进入档案。在突发事件中,微博可以迅速传递第一时间、第一现场的情况,这是传统媒体无法企及的。微博这一难得的信息资源将更好地还原真相、记录历史,将成为未来档案构成的一部分。[3]
中华人民共和国档案行业标准《档案工作基本术语》对档案的定义表述是:“国家机构、社会组织或个人在社会活动中直接形成的有价值的各种形式的历史记录。”[4]
2.2“微博档案”国外情况
现在,国外很多国家都在尝试将微博、博客这类社交媒体中的信息保管,建立“网络档案馆”、“网络图书馆”等。
2010年4月,美国国会图书馆与Twitter公司达成一项协议。根据协议内容,Twitter将向美国国会图书馆提供所有twitter信息。美国国会图书馆先是收录了2006年-2010年4月期间产生的210亿条推文,后来又补充了从那时起直至现在的1500亿条推文。
盖尔·奥斯特伯格表示:“收集140字的twitter信息正好符合美国国会图书馆的使命——收集美国故事和获取有价值资料的使命。”[5]国会图书馆称,Twitter推文是一种重要的新型馆藏资料。
3.微博的档案化
随着互联网的发展,微博信息量越来越庞大,很多信息转瞬即逝,在分秒间我们就很可能错过了很多有价值的档案资源。但是,如何将微博作为档案收集、保存起来还存在很多问题,存在问题的同时也有很多新技术可以帮助我们更好的实现微博档案化。
3.1存在的问题
3.1.1信息质量参差不齐
真实、有价值的微博是社会记忆的真实体现,所以我们应该将微博作为档案保存起来。20世纪80年代以来,欧美各国的档案研究人员逐步坚信档案应反映其产生的社会记忆,强调档案应担负起保存“社会记忆”的职能,鉴定保证了档案的真实性和有价值性。只有选择能反映“人类生活的方方面面”的“社会记忆”,才能为子孙后代保存丰富的社会史实,为人类文明留下完整的社会记录。[6]
3.1.2分门别类,合理保存
对于微博档案的保存,首先要做的就是分门别类,制定通用的标准,根据微博的内容进行分类。在分好类后,我们还要利用合理的载体和保存办法,通过先进的技术,将微博档案进行保存。关于微博档案保存技术和方法,是分析现在和可预见的未来的计算机技术水平,确定能够准确、完整、长期地保存那些具有重要价值的微博档案的技术和方法。[7]
3.2解决方法
美国国会图书馆副馆长罗伯特·迪萨德表示:“Twitter的功能是生产和发布信息,而我们要收集这些信息,并提供存取便利。这两种方式完全不一样。”[10]
3.2.1“蜘蛛人”
“蜘蛛人”用网页超链接结构摸索到网页上,抓取相关的网页发送到搜索引擎服务器上,按照一定的方式将网页进行排序,网页就被存放在一个巨大的紧密管理的组成搜索引擎索引的数据库中,以等待为用户提供相关信息。“蜘蛛人”抓取网页不仅适用于静态网页,也同样适用于动态网页。我们同样可以利用“蜘蛛人”软件进行微博抓取,而且可以进一步进行排序和保存在数据库中。
3.2.2“数据挖掘”相关技术及“云方案”
在“大数据”时代下,数据挖掘、数据仓库等成为我们日前研究的热点。在这里我们主要探讨“数据挖掘”中的挖掘潜在数据关系,建立数据联系,对数据进行实时追踪,例如将微博信息保存在庞大的数据仓库中,并对微博进行实施跟踪,增加更新新信息。
例如美国国会图书馆对Twitter信息的收集。"Twitter信息之所以难于整理,一方面是由于数据量过于庞大,另一方面则是因为每天都会有新数据不断加入进来,而这种增长速度仍在不断提升,"官方指出。"此外,Twitter信息的种类也越来越多样。普通Twiiter信息、利用软件客户端发出的自动回复信息、手动回复信息、包含链接或者图片的信息等等,这一切让我们无从下手。[11]而这都可以依靠数据挖掘去解决,将庞大、繁多的信息利用数据仓库存储并分类保管,继而实时跟踪。
我们档案工作者应该站在一个高度,前瞻性地关注微博档案化这一重要问题,现阶段关于微博档案的研究还没有一个成熟的理论,微博档案的收集、鉴定和保存还存在很多问题,缺乏具体、可操作的实施规范,随着微博在社会中愈加重要,微博档案化必将引起社会更大的关注。
参考文献:
[1]耿磊.社会记忆理论影响下对档案历史真实性的再思考[J].档案时空,2012,(2).
[2]冯惠玲.档案学概论(第二版)[M].北京:中国人民大学出版社,2006.
[3]T·库克,李音.铭记未来——档案在建构社会记忆中的作用[J].档案学通讯,2002,(2).
[4]姬申建,路江曼.“微博档案”研究[J].浙江档案,2012,(7).