论文部分内容阅读
摘要:目的 探索偏头痛中西医临床诊疗的规律。方法 应用中国生物医学文献服务系统,收集治疗偏头痛的文献数据,采用基于敏感关键词频数统计的数据分层算法,并结合原文献回溯、人工阅读分析等方法,挖掘有关偏头痛证候、症状、中药、中成药以及西药联用的规律,并通过一维频次表及二维的网络图对结果进行展示。结果 共检索到偏头痛文献7 921篇。文本挖掘结果显示,肝阳上亢、肝气郁结、气虚血瘀等是偏头痛主要的中医证型,核心症状以头痛、呕吐、恶心、头晕、畏光等为主,川芎、天麻、丹参、柴胡、当归、白芍、白芷等是中药治疗的核心药物,偏头痛常用的中成药以养血清脑颗粒、头痛宁胶囊、正天丸等为主;西药以氟桂利嗪、尼莫地平、阿司匹林等最为常用,中成药与西药联用最常用的方案是养血清脑颗粒联合尼莫地平。结论 文本挖掘得到的偏头痛证候、症状、中药、中成药以及中成药与西药的联用结果有助于规范、全面的认识本病,对临床实际有一定的参考意义。
关键词:文本挖掘;数据分层算法;偏头痛;证候;症状;中药;西药
中图分类号:R2-05;R277.771 文献标识码:A 文章编号:1005-5304(2013)02-0030-04
偏头痛是一种周期性发作的神经-血管功能障碍引起的头痛,以反复发作的一侧或两侧搏动性头痛为主要表现,该病病程长、间歇性反复发作、缠绵难愈[1-2],属于中医学“头风”、“头痛”、“偏头风”范畴。在欧美国家人群中,该病患病率约为
1 500~2 000人/10万人,我国约为732.1人/10万人[3]。近年来,随着对该病认识的逐渐深入,治疗偏头痛的中西药物不断增多,有关治疗该病的文献数目也急剧增加。为从现有文献中更系统地总结对该病的认识,本研究借助文本挖掘技术[4-5],结合原文献回溯、人工阅读分析等方法,对现有中文文献进行挖掘,分析中西药物治疗偏头痛的有关规律。
1 资料与方法
1.1 文本数据收集
在中国生物医学文献数据库(Chinese BioMedical Literature Database,CBM,http://sinomed.cintcm.ac.cn/index.jsp)中以“缺省[智能]:”状态下检索“偏头痛”,共得到文献7 921篇(检索日期:2012年5月15日),依次下载所有文献并保存。
1.2 文本数据处理
将收集来的数据,按照下载的先后顺序,整合到一个平面文件(后缀txt)里面,以ANSI编码格式保存。由2人同时背对背人工阅读下载文献,初步找出噪音性文献,不属于偏头痛中医证候分类及其中西医口服药物治疗的文献均视为噪音性文献,核对后统一进行筛除,对检索下载的文献进行初步筛选。然后,利用专有的文本提取工具(软件著作权,软著登字第0261882号,登记号2010SR073409)对下载筛选后的非结构化的txt文本数据进行信息提取,保存成格式化的、便于大型关系型数据库(Microsoft SQL Server,以下简称SQL)处理的格式,然后导入SQL中进行下一步的挖掘分析。假设每一篇文献的贡献度是相同的,一篇文献中重复出现的关键词只需要计算一次,据此构建算法进行数据清洗工作[5]。清洗完毕的数据,既可以提取挖掘对象的一维频次,也可以得到挖掘对象的二维关系,进行可视化呈现。抽出不同频次的关键词对,用Cytoscape 2.8软件进行可视化处理,形成可视化的网络图,然后结合专业知识进行解析,一旦发现不合理的结果,即回溯原文献数据集,如果是噪音,仍按算法进行噪音清洗,直至噪音降到满意为止。最后的结果可视化成图,结合专业知识进行解析。
2 结果
2.1 证候文本挖掘结果
共挖掘到中医证候40项,选取文献频次≥4依次为(括号内为文献数,下同):肝阳上亢(66)、肝气郁结(15)、肾阴虚(10)、气虚血瘀(10)、气滞血瘀(10)、瘀血阻络(9)、肝肾阴虚(8)、肝风内动(5)、痰浊上扰(5)、肝火上炎(4)、肝郁化火(4)。
图1中肝阳上亢、肝气郁结、肾阴虚、肝肾阴虚证候关联程度较高,权重较大,处于证候核心位置。其他证型如瘀血阻络、痰浊上扰、气虚血瘀、肝郁化火等也为关联程度较高的证型,在证候网络关系中也具有相对重要的位置。
2.2 症状文本挖掘结果
共提取到60个症状,选取前11个按文献频次高低依次为:头痛(6 930)、呕吐(209)、恶心(201)、头晕(52)、畏光(48)、胀痛(44)、失眠(42)、发热(30)、绞痛(28)、耳鸣(28)、疱疹(27)。
2.3 中药文本挖掘结果
2.4 中成药与西药文本挖掘结果
3 讨论
文本挖掘是国际上一个比较活跃的研究领域,已进入商业化应用。我国文本挖掘研究起步较晚,大多数研究都偏向于自然语言处理和信息检索,对中医药文献文本挖掘的研究也处于初步阶段,但使用文本挖掘方法能从海量的中医药文献中发现知识并促进中医临床研究和中药研发,目前已越来越多地应用到中医药的研究中[6-7]。使用文本挖掘的方法对疾病的中医辨证及治疗进行分析,得出的结果能较客观、真实地反映疾病临床实际,也可为中医及中西医结合研究提供某些新的研究方法与思路。
本研究对偏头痛文献进行文本挖掘,得到了偏头痛有关中医证候、中西医症状、中药、中成药与西药联合应用等挖掘结果,对中西医治疗偏头痛的规律进行了较全面的总结。对文献中挖掘得到的中医证候分析发现,肝阳上亢、肝气郁结、肾阴虚、气虚血瘀、气滞血瘀、瘀血阻络、肝肾阴虚等证候频次较高,这与临床常见的偏头痛的主要中医辨证分型大致相同,风痰、瘀血、气滞、阳亢、气血亏虚等是造成偏头痛的病理因素,而其中肝阳上亢、肝气郁结、肾阴虚、肝肾阴虚证候之间的关联程度较高,说明这几个证型一起出现的几率较多,也可能存在一定的证候转化。症状方面,挖掘到的头痛、恶心、呕吐、畏光、头晕、胀痛、失眠、耳鸣等频次较高的症状是偏头痛发病时最明显的临床症状,而在症状网络图中显示出头痛、恶心、呕吐是与其他症状关联最密切的3个症状,网络图所示的如瘫痪、麻木、目眩、功能障碍、抽搐、强直等是特殊类型的偏头痛的某些表现,腹痛、腹泻、关节痛、肩痛、背痛、骨痛等则是偏头痛的等位发作症状的表现,症状网络关系图主要显示了偏头痛发病期、先兆期、头痛后期及特殊类型偏头痛的部分症状表现。
关键词:文本挖掘;数据分层算法;偏头痛;证候;症状;中药;西药
中图分类号:R2-05;R277.771 文献标识码:A 文章编号:1005-5304(2013)02-0030-04
偏头痛是一种周期性发作的神经-血管功能障碍引起的头痛,以反复发作的一侧或两侧搏动性头痛为主要表现,该病病程长、间歇性反复发作、缠绵难愈[1-2],属于中医学“头风”、“头痛”、“偏头风”范畴。在欧美国家人群中,该病患病率约为
1 500~2 000人/10万人,我国约为732.1人/10万人[3]。近年来,随着对该病认识的逐渐深入,治疗偏头痛的中西药物不断增多,有关治疗该病的文献数目也急剧增加。为从现有文献中更系统地总结对该病的认识,本研究借助文本挖掘技术[4-5],结合原文献回溯、人工阅读分析等方法,对现有中文文献进行挖掘,分析中西药物治疗偏头痛的有关规律。
1 资料与方法
1.1 文本数据收集
在中国生物医学文献数据库(Chinese BioMedical Literature Database,CBM,http://sinomed.cintcm.ac.cn/index.jsp)中以“缺省[智能]:”状态下检索“偏头痛”,共得到文献7 921篇(检索日期:2012年5月15日),依次下载所有文献并保存。
1.2 文本数据处理
将收集来的数据,按照下载的先后顺序,整合到一个平面文件(后缀txt)里面,以ANSI编码格式保存。由2人同时背对背人工阅读下载文献,初步找出噪音性文献,不属于偏头痛中医证候分类及其中西医口服药物治疗的文献均视为噪音性文献,核对后统一进行筛除,对检索下载的文献进行初步筛选。然后,利用专有的文本提取工具(软件著作权,软著登字第0261882号,登记号2010SR073409)对下载筛选后的非结构化的txt文本数据进行信息提取,保存成格式化的、便于大型关系型数据库(Microsoft SQL Server,以下简称SQL)处理的格式,然后导入SQL中进行下一步的挖掘分析。假设每一篇文献的贡献度是相同的,一篇文献中重复出现的关键词只需要计算一次,据此构建算法进行数据清洗工作[5]。清洗完毕的数据,既可以提取挖掘对象的一维频次,也可以得到挖掘对象的二维关系,进行可视化呈现。抽出不同频次的关键词对,用Cytoscape 2.8软件进行可视化处理,形成可视化的网络图,然后结合专业知识进行解析,一旦发现不合理的结果,即回溯原文献数据集,如果是噪音,仍按算法进行噪音清洗,直至噪音降到满意为止。最后的结果可视化成图,结合专业知识进行解析。
2 结果
2.1 证候文本挖掘结果
共挖掘到中医证候40项,选取文献频次≥4依次为(括号内为文献数,下同):肝阳上亢(66)、肝气郁结(15)、肾阴虚(10)、气虚血瘀(10)、气滞血瘀(10)、瘀血阻络(9)、肝肾阴虚(8)、肝风内动(5)、痰浊上扰(5)、肝火上炎(4)、肝郁化火(4)。
图1中肝阳上亢、肝气郁结、肾阴虚、肝肾阴虚证候关联程度较高,权重较大,处于证候核心位置。其他证型如瘀血阻络、痰浊上扰、气虚血瘀、肝郁化火等也为关联程度较高的证型,在证候网络关系中也具有相对重要的位置。
2.2 症状文本挖掘结果
共提取到60个症状,选取前11个按文献频次高低依次为:头痛(6 930)、呕吐(209)、恶心(201)、头晕(52)、畏光(48)、胀痛(44)、失眠(42)、发热(30)、绞痛(28)、耳鸣(28)、疱疹(27)。
2.3 中药文本挖掘结果
2.4 中成药与西药文本挖掘结果
3 讨论
文本挖掘是国际上一个比较活跃的研究领域,已进入商业化应用。我国文本挖掘研究起步较晚,大多数研究都偏向于自然语言处理和信息检索,对中医药文献文本挖掘的研究也处于初步阶段,但使用文本挖掘方法能从海量的中医药文献中发现知识并促进中医临床研究和中药研发,目前已越来越多地应用到中医药的研究中[6-7]。使用文本挖掘的方法对疾病的中医辨证及治疗进行分析,得出的结果能较客观、真实地反映疾病临床实际,也可为中医及中西医结合研究提供某些新的研究方法与思路。
本研究对偏头痛文献进行文本挖掘,得到了偏头痛有关中医证候、中西医症状、中药、中成药与西药联合应用等挖掘结果,对中西医治疗偏头痛的规律进行了较全面的总结。对文献中挖掘得到的中医证候分析发现,肝阳上亢、肝气郁结、肾阴虚、气虚血瘀、气滞血瘀、瘀血阻络、肝肾阴虚等证候频次较高,这与临床常见的偏头痛的主要中医辨证分型大致相同,风痰、瘀血、气滞、阳亢、气血亏虚等是造成偏头痛的病理因素,而其中肝阳上亢、肝气郁结、肾阴虚、肝肾阴虚证候之间的关联程度较高,说明这几个证型一起出现的几率较多,也可能存在一定的证候转化。症状方面,挖掘到的头痛、恶心、呕吐、畏光、头晕、胀痛、失眠、耳鸣等频次较高的症状是偏头痛发病时最明显的临床症状,而在症状网络图中显示出头痛、恶心、呕吐是与其他症状关联最密切的3个症状,网络图所示的如瘫痪、麻木、目眩、功能障碍、抽搐、强直等是特殊类型的偏头痛的某些表现,腹痛、腹泻、关节痛、肩痛、背痛、骨痛等则是偏头痛的等位发作症状的表现,症状网络关系图主要显示了偏头痛发病期、先兆期、头痛后期及特殊类型偏头痛的部分症状表现。