论文部分内容阅读
随着信息技术和移动数据的发展和普及,如今,社交媒体已成为信息生产、发布、传播和交流的主要平台,已成为我们日常生活必不可少的一部分。社交媒体信息记载着社会公众的日常行为,反映了当时的社会现状,其中有价值的信息可作为社交媒体档案长期存储,因为它是社会记忆,是人类文化遗产的重要组成部分。然而,社交媒体信息具有更新速度快、生命周期短等特点,使其快速产生与传播的同时容易丢失,致使许多社交媒体信息没有得到有效存储。采集与存储有价值的社交媒体信息,对人类文化遗产的长期存储和永久可获取具有重要意义,已成为理论界与实践界共同关注的焦点。目前国内外已有采集与存储互联网资源的项目,但是这些项目更加关注政治类信息资源,对社交媒体信息资源关注度较少。此外,当前国内外项目在采集信息时,只是将需要采集的网站链接存储到服务器上,在这种组织方式下,用户只能通过URL检索利用存档资源,若用户对于要查询的信息了解较少,那么将无法获取所需内容。这与当前用户通过主题词、关键词检索的习惯不同。本文从社交媒体档案内容的角度对其相关问题进行阐述。主要内容有:(1)通过对近几年学术界网络信息资源研究热点的归纳分析,总结得出目前学术界有关以内容为研究对象的社交媒体档案采集研究薄弱的结论。分析了社交媒体信息的属性,界定了社交媒体档案的概念,明确了档案归档理论和原则,为后续的主体部分提供相应的理论支撑。(2)第三章介绍了社交媒体档案的采集主体、范围、周期、方法、技术以及策略。首先分析并确定了采集主体的合作模式;其次,在参考传统档案采集方法的基础上,结合社交媒体的特点,整理社交媒体档案采集方法;再次,根据影响采集范围、周期、技术以及策略的因素,确定社交媒体档案采集范围、周期、技术以及策略。(3)第四章详细介绍了社交媒体信息处理的三个方面,包括信息过滤、语义分析和价值鉴定。由于社交媒体信息经常被复制和分享,所以,采集的信息会存在冗余的现象,需要进行信息过滤;由于社交媒体信息中包含各种标签、表情等非纯文本信息以及社交媒体信息通常情况下不是短语而是长句子,这类信息计算机无法识别,所以,需要对其进行语义处理,转化为计算机可以识别的语言;最后,通过社交媒体档案价值鉴定,剔除掉无价值的信息。(4)社交媒体档案的存储是归档最后一个环节,也是最重要的环节,存储质量的好坏,会直接影响用户利用档案的满意度。第五部分从存储载体、存储策略和存储流程的选择角度介绍社交媒体档案的存储。文末总结了本文所做的研究,展望了未来研究,为之后的研究指出了思路和方向。