论文部分内容阅读
语义Web框架是人们进行语义Web开发时使用的主要工具。Jena作为应用十分广泛的语义Web框架,面对新涌现的HTML5文档和大数据量存储这两个问题时缺乏有效的支撑。本文提出并实现基于Jena的扩展语义Web框架JenaPro,它通过分析HTML5文档中的语义标签,提炼出文档的层次结构,并可以利用Hadoop中的分布式文件存储系统HDFS进行文件的存储。在实际应用中,可以通过JenaPro获得HTML5文档的大纲层次结构,提取每一层的语义信息,为进一步的智能信息处理提供支撑平台。