基于分布式存储的非结构化文档管理与分析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:shalaoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国高校科研管理信息化建设的不断推进,各类非结构化科研文档得到快速增长和积累。面对规模巨大、种类繁多的科研文档数据,如何为这些数据提供集中的、安全的、可靠的存储环境和智能化的管理平台,提高科研管理人员的文档管理效率,成为目前亟待解决的一个问题。另一方面,科研文档数据是全国高校科研工作者长期研究积累的知识结晶,如何有效发挥出隐藏在文档中的潜在价值,也成为当下科研管理的重点发展方向。为此本课题以分布式存储系统为基础支撑,结合自然语言处理与机器学习等大数据相关理论与技术,设计了一个安全、可靠、扩展性良好的文档管理与分析平台。本课题首先对国内外非结构化数据管理与分析平台的现状进行了充分调研,分析现有系统在非结构化数据管理和分析中存在的不足,并结合当前科研文档的实际情况,梳理出文档管理与分析平台的需求;然后,以分布式文件系统HDFS和大数据分析理论与技术为核心,以SpringMVC和ExtJS等Web前后端开发框架为基础,详细设计并实现了海量文档存储、文档管理以及非结构化文档分析等功能;最后对平台进行了详细测试和分析,以验证各模块功能的准确性和可靠性。科研文档管理与分析平台具有较高的易维护性和可扩展性。通过搭建高可用分布式集群存储环境,为文档存储安全性提供了保障;通过提供简洁直观的操作页面,大大提高了文档管理的效率;通过从原始大量非结构化文档中挖掘隐含的、预先未知的并有潜在价值的信息,找到科研数据的相关性和发展规律,为广大科研工作者提供了更加智能化和个性化的数据服务,在高校科研管理信息化建设过程中具有很好的决策指导作用和现实使用价值。
其他文献
文中结合煤矿矿井施工及生产实际,选择应用陀螺经纬仪进行了矿井井下定向,简要介绍了陀螺定向仪的工作原理;计算了子午收敛角和井下陀螺方位角;对实测结果进行了精度分析;得到了精度较高的观测成果;探讨了将陀螺经纬仪定向结果用于井下导线首级控制网的起始方位可行性。为今后井下测量打下了良好的基础。
文中结合甘肃省基础测绘数据生产中实际情况,叙述了基础测绘数据生产困难类别的划分及经费计算的具体方法,并通过应用和实践,能够为省级基础测绘和地理国情普查、监测等类似
目的:随着现代生活方式和饮食习惯的改变,高尿酸血症和由高尿酸血症引起的痛风病的发病率逐年升高,近年来应用中药治疗该病的临床试验和动物实验越来越多。中医作为我国的国
为了寻求脲酶的国产化途径,对双青豆脲酶提取工艺进行了研究。研究结果表明,当铵氮溶液的浓度为0.002 mol/l时,标准曲线的相关系数为0.9995,借助钠氏试剂比色法对脲酶分解尿
本文给出了一个大型在线考试系统的设计和实现方法。该考试系统使用sql server2005存储题库数据,应用asp.net技术设计动态网页,采用web office组件来提取试题中包含的多种类
随着互联网的主流媒体地位得到逐渐的认可,基于网络的视频营销也逐渐成熟起来,其表现形式已不仅仅是把电视媒体上的广告片、宣传片移植到网络媒体上。新型的网络视频营销模式
本文以102名大学二、三年级本科生为实验对象,采用问卷调查的形式,针对学生的性别及年级差异是否会影响其与外教发生冲突(问卷中设计了假定冲突情境)时所采取的解决方式进行
<正>各行各业的从业人员所做的工作不同,他们在工作中使用的工具和手段也不同。是否有效地使用工具和手段在很大程度上决定工作完成的效果和效率。显然,教师在课堂教学中使用
从天然植物粗提物中分离的天然植物活性物质成分纯度高,质量易于控制,应用于卷烟有一定的优势。因此,对甘草、茉莉及苹果的活性成分进行了分离纯化,并对比评吸了三种天然植物
在阐述高速公路施工成本标准化管理措施的基础上,结合我国高速公路工程建设实际情况,从施工资源实际利用率、成本管理水平与施工单位效益增收三方面深度剖析全面实行标准化成