论文部分内容阅读
提高挖掘生物医学文献中的实体关联算法的性能,对开拓研究新思路有重要启示作用。提出一种改进特征的新线性内核SVM关联挖掘方法,以糖尿病相关文献摘要为研究内容,总结归纳出5种实体关联挖掘特征:实体特征、实体对特征、依赖图特征、解析树特征和名词短语约束特征,其中实体对和名词短语约束是所提出的新特征,并使用Huber损失函数作为SVM分类器的线性内核进行计算,挖掘预测疾病、基因和药物实体之间的关联。计算得到10种糖尿病相关病症和23种基因有173种关联,13种糖尿病相关病症和26种药物存在79种关联,18种基因与17种药物组成了159种关联,构建出疾病-基因、疾病-药物、基因-药物和8种糖尿病相关疾病基因药物的关联网络,共计619种实体关联,同时预测出27种新实体关联对,最后使用ROC曲线验证3种关联(0.804、0.847和0.742)。结果表明,所提出算法与Co Pub(0.710)、Pub Gene(0.609)、FBK-irst(0.547,0.800)和WBI(0.510,0.759)所用算法相比,最高精确度提升超过约5%(0.847与0.800),最低提升超过约20%(0.742与0.510),性能更优,为下一步在生物医学大数据中的应用打下良好基础。