论文部分内容阅读
近年来,大规模语义数据Linked Data数据量呈现爆炸式的增长,其中生物医学数据集占据了相当大的比例。由于这些数据集分散且仅提供了有限的查询功能,没有充分出挖掘数据集中的有效信息,给用户提供一套综合的应用方案。因此,将RDF语义和生物学意义结合起来,研究其语义查询问题有着重要的理论意义和工程应用价值。在详细分析DBpedia、SIDER、Diseasome、DailyMed和LinkedCT等11个数据集的基础上,研究开发了一个具有生物学意义的多数据集语义查询平台。为了保证RDF语义数据的一致性,设计基于MapReduce的不一致检验算法,对跨领域核心枢纽数据集DBpedia进行验证,得出不一致检验结果并给出解决方案;设计数据集关系挖掘算法,绘制出数据集关系图;通过对数据集之间关系的分析,提出了三种语义查询问题:查询疾病信息、根据疾病查询药物和查询药物副作用;以Cassandra作为底层储存库,在分布式条件下采用MapReduce方法完成数据的装载;采用路径查询理论给出了三种查询功能的算法设计和实现,实例查询结果展示了平台的有效性和优越性。基于大规模生物医学语义关联数据集研究开发的语义查询平台,充分利用了语义Web相关技术,并与生物学意义相结合,为用户提供了一个实用且有效的查询平台,同时对于智能问题回答系统的构建也有一定的指导意义。