论文部分内容阅读
生物医学技术的发展为人类提供了大量的药品用以治疗各种疾病。一方面,药物对于治疗人类疾病,改善人类健康水平,延长人类寿命起到重要作用;另一方面,药物不良反应又使得药物在某些情况下对人类身体健康产生严重危害,而这些危害甚至可能是致命的。药物不良反应不仅对个人健康产生危害,而且给整个社会带来巨大的经济损失。如何及时高效而又全面地发现药物所导致的不良反应成为医学界和学术界所关注的热点。药物流向市场之前必须进行综合的临床试验。但由于其局限性,临床试验不能保证揭露药物所有的不良反应。药物上市后,药物不良事件报告系统成为监控药物安全、发现药物不良反应的主要依托。随着Web2.0技术的发展以及互联网广泛的普及,健康社交网站积累了大量的用药者评论,这些用药者评论数据蕴含丰富的药物不良反应信息,为挖掘潜在药物不良反应、监控药物安全提供了新的数据源。针对药物不良事件报告系统中的数据,本文利用非序列化Skip-gram模型,训练生成药物和不良反应的分布式实体向量,利用向量之间的运算来计算药物和不良反应之间的关联性达到挖掘潜在药物不良反应的目的。实验表明,非序列化Skip-gram模型生成的分布式实体向量,有效地捕捉了药物和不良反应之间的关联性,可以用于进行潜在药物不良反应的发现。针对社交网络中的用药者评论数据,本文利用信息熵和字典匹配的方法从用户评论中挖掘药物不良反应。但是,从用户评论中挖掘到的药物不良反应是“潜在”意义的不良反应,尚未得到临床意义上的验证,而验证潜在药物不良反应的真伪性是耗时耗力的过程。因此,本文利用非序列化Skip-gram模型,生成生物医学实体的分布式向量,对于药物d和不良反应a,利用所生成的分布式实体向量,尽最大努力发现药物d和不良反应a之间的关联蛋白质,为生物医学专家最终确定其真实性提供蛋白质级别的参考,从而缩短确定潜在不良反应真实性的时间,实现及时发现药物潜在风险的目标。