基于文本挖掘的《本草集要》语义内容与特征分析

来源 :中国中医药信息 | 被引量 : 0次 | 上传用户:peace_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:目的 挖掘《本草集要》语义概念出现规律及其之间的相互关系,分析《本草集要》语义特征。方法 以明刊本《本草集要》为研究对象,采用文本挖掘与语义网络构建方法,对《本草集要》中字频、中药频数及常用中药药性、采收时间、性味用量、用药对象频数,以及治疗各类病症频数、病症部位频数、功效频数、关联网络构建进行分析。结果 《本草集要》中使用频率最高的字是“气”,出现频次最高的中药是甘草,其次是黄连、黄芩等清热解毒中药;对中药毒性、采收季节、药物作用的人体部位及对妇女和小儿用药特别重视,对中药治疗疼痛性病症记载较多;从关联网络图中可以看出,寒热、邪气、妇人等词与其他语义词的相关关系较为密切。结论 以上特征对理解《本草集要》语义内容,把握全书的学术思想,以及临床医师临证处方用药具有一定指导意义。
  关键词:本草集要;文本挖掘;关联网络
  DOI:10.3969/j.issn.1005-5304.2015.12.009
  中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2015)12-0034-04
  Analysis on Semantic Contents and Medication Characteristics of Ben Cao Ji Yao Based on Text Mining QU Yi (Eye Institute of Shandong University of Traditional Chinese Medicine, Jinan 250002, China)
  Abstract:Objective To mine appearing laws of semantic concepts and their mutual relations in Ben Cao Ji Yao. Methods The Ming edition of Ben Cao Ji Yao was set as study object. Text mining method and semantic network construction method were used to analyze word frequency, TCM frequency, properties of commonly used TCM, harvesting time, property and flavor, medication object frequency, frequency for the treatment of a variety of diseases, frequency of disease parts, efficacy frequency and associated network construction. Results The most frequently used word is “qi”;Chinese herbal medicine with the highest frequency is Glycyrrizae Radix et Rhizoma, followed by clearing heat and detoxifcation medicine, such as Coptidis Rhizoma and Scuteliariae Radix. The book attached much importance to the toxicity of Chinese herbal medicine, harvest season and medicine effects on human body. The medication for women and children were paid more attention. The most special part of this book is the large amount of recordings about TCM treatment for diseases with many pains. The close relationship of cold-hot, pathogenic factors and woman with other words can be seen from the associated network graph. Conclusion The above characteristics are important for clinic doctors to understand and grasp the semantic contents and academic thoughts of Ben Cao Ji Yao, which also can provide guiding significance for clinical prescription and medication of clinical doctors.
  Key words:Ben Cao Ji Yao;text mining;associated network
  《本草集要》8卷,明代王纶编纂,成书于明弘治十三年(公元1500年)。主要集自《证类本草》及朱丹溪、李东垣之书,删繁集要,编纂而成。上部卷一为总论,集录《证类本草》卷首之总论及采《内经》、东垣诸说有关本草者,如《神农本草经》序例、陶弘景等论汤药丸散之分量修治、制方用药之法等,为本草之源。中部卷二至卷六,为取《证类本草》及东垣、丹溪诸书参互考订,削其繁芜,节其要略,删成五卷,载药545种,仿《证类本草》,分草、木、菜、果、谷、石、兽、禽、虫鱼、人等部。每药之下,述君臣佐使、性味归经、阴阳、良毒、畏反等;后列主治、单方,节录前人论述;末为王氏按语。卷七至卷八为药性分类,仿《证类本草》卷二病原所主药名写成。卷七治气、治寒、治血、治热、治痰、治湿六门,卷八治风、治燥、治疮、治毒、妇人、小儿六门。门下分类,如治痰门有治热痰虚痰药、治湿痰行痰药、治寒痰风痰药、消克痰积药,各类列相应药物,简述药性,临床用药之际,便于检索。虽本书的宗旨是集要而便于初学,但论述斯为详备,加之文义古奥,理解起来会有一些困难。本研究以《本草集要》为研究对象,采用文本挖掘和语义网络构建方法[1-2],挖掘《本草集要》中语义概念之间的关联关系,了解语义内容的特征和规律,为研究《本草集要》提供参考。   1 资料与方法
  1.1 文献录入与文本数据处理
  以《本草集要》朱廷立本为底本,以中国中医科学院图书馆藏明刊本为对校本,参校以上海中医药大学图书馆藏明刊本、《证类本草》卷首及《神农本草经》序例,结合本校和理校,对全书进行了文字录入和精细的校勘,将录入校对后文本信息转化为平面文件。应用ROST Content Mining System 6.0统计字频,并根据中药相关语义进行人工分词。分词后进行词频分析,应用ROST Content Mining System 6.0对平面文件文档进行词频统计、提取,构建之乎者也等停用词表,剔除之乎者也之类的虚词,生成高频词表,分析《本草集要》中中药相关信息。
  1.2 关联网络的构建
  运用共现分析方法中的共词分析(Co-word analysis)方法,根据统计学聚类分析的方法研究文本中知识单元的共现分布特征[3],应用ROST Content Mining System 6.0形成高频词的共现矩阵。在网络中,以中药名称等高频词作为网络中的节点,以各种中药及相关语义信息之间关联关系作为网络中的边,将共现矩阵导入Cytoscape 软件[4]进行可视化处理。
  2 结果
  2.1 《本草集要》字频分析
  通过对《本草集要》字频分析,发现《本草集要》中使用频次最高的是“气”,体现《本草集要》对“药物之气”“人身之气”的高度重视;另一个出现频次较高的字是“血”。通过字频分析发现,《本草集要》对气血的重视与中医认为气血调和对人体健康具有重要意义的理论是一致的。此外,“毒”“热”“风”“寒”“疮”“痛”等字出现的频次也较高。按出现频次排序,前30位字频见表1。
  2.2 中药频数分析
  通过对中药频数的分析,结果发现,出现频次最高的是“甘草”,其次是“黄连”“黄芩”等清热解毒中药,再次是“生姜”“大黄”“黄檗”等。按出现频次排序,前20位中药见表2。总的来看,《本草集要》比较重视收集寒性中药。从功效来看,清热中药和温中及调和气血的中药出现频次较高。
  表1 《本草集要》字频分析(排序前30位)
  表2 《本草集要》中药频数分析(排序前20位)
  2.3 常用中药药性、采收时间及性味用量等分析
  通过《本草集要》词频分析,发现其中“无毒”387频次,“有毒”83频次,“气温”142频次;对中药采收季节和阴干加工特别重视,“五月”43频次,“三月”26频次,“八月”15频次,“七月”13频次,“四月”12频次,“二月”10频次,“九月”9频次,提到“阴干”102频次;另对中药性味的记载,包括“大寒”“辛甘”18频次,“辛苦”17频次。
  2.4 用药对象频数分析
  通过词频分析,发现《本草集要》对妇女记载达到190频次(包括“妇人”105频次,“女子”64频次,“女人”21频次),“小儿”出现182频次,而男人只有46频次(“丈夫”15频次,“男子”31频次),对“大人”记载只有14频次。
  2.5 治疗各类病症频数分析
  通过对《本草集要》各类病症的统计分析,发现《本草集要》中记载的病症主要有5类,包括内科杂病(见表3)、外感时疫(见表4)及妇科病症、外科病症、疼痛病症(见表5),总频次达182次,这是《本草集要》的一大特征。
  表3 《本草集要》记载内科杂病频数分析
  表4 《本草集要》记载外感时疫频数分析
  表5 《本草集要》记载妇科、外科、疼痛病症频数分析
  序号 妇科病症 外科病症 疼痛病症
  病名 频次 病名 频次 病名 频次
  1 产后 81 金疮 129 头痛 67
  2 妊娠 18 脓血 44 疼痛 32
  3 血崩 18 痈疽 28 心痛 31
  4 月经 12 口疮 27 腰痛 28
  5 难产 11 痔瘘 16 酸疼 13
  6 息肉 10 风痛 11
  2.6 治疗病症部位频数分析
  《本草集要》对于药物作用的人体部位也比较重视,共涉及26个相关的人体部位,大到心腹、四肢,小到筋骨、目中,这种对中药作用部位的详尽描述对临床组方选药具有重要参考意义。频次≥10的病症部位见表6。
  表6 《本草集要》治疗病症部位频数分析(频次≥10)
  2.7 功效频数分析
  《本草集要》对于中药功效共有18个相关记载,其中出现频次最高的是“益气”,其次是“止痛”,体现了本书对中药调和气血,以及治疗痛疼病症的重视。见表7。
  表7 《本草集要》中药功效频数分析
  2.8 关联网络构建分析
  以《本草集要》中高频知识信息及其之间的关联关系构建网络,应用ROST Content Mining System 6.0形成高频词的共现矩阵,将共现矩阵导入应用Cytoscape 2.7软件进行可视化处理,结果见图1。从关联网络图中可以看出有2个语义子网,一个是中药药性、有毒无毒及采摘时间等信息之间的关系,另一个是中药功效、主治等相关信息之间的语义网络关系图。结果发现,寒热、邪气、妇人等词与其他语义词相关关系较为密切,妇人-产后-血晕关系密切,同时妇人与血气也具有一定关系。
  图1 《本草集要》高频词关联网络关系图
  3 讨论
  文本挖掘的对象是非结构化或半结构化,可以从数以百万计的文本数据中寻找潜在规律和趋势[5]。中医古籍文本挖掘研究非常少,其中一个难点就是中文分词问题,本研究经过咨询相中医文献专家,根据《本草集要》词义特征,采用人工分词方法,避免机器分词出现的分词错误。《本草集要》宗旨是集要而便于初学,各类列相应药物,简述药性,便于临床选药。通过文本挖掘,我们发现《本草集要》中使用频次最高的字是“气”“血”,出现频次最高的中药是甘草,其次是黄连、黄芩等清热解毒中药;同时还发现《本草集要》对中药毒性、采收季节很重视,而且对妇女和小儿用药特别重视;《本草集要》中记载的病症主要有5类,包括内科杂病、外感时疫、妇科病症、外科病症及疼痛病症,对于药物作用的人体部位也比较重视,尤其比较特殊的是对疼痛性病症记载较多;从关联网络图中可以看出,寒热、邪气、妇人等词与其他语义词相关关系较为密切。这些结果反映了《本草集要》重视气血。中医学认为,气与血各有其不同作用而又相互依存,以营养脏器组织,对维持生命活动具有重要意义,气血出现病变,会造成人体产生多种疾病,如气血亏虚、气机不畅、气虚血瘀等病证。《本草集要》还注重临床实用性,很多中药都明确记载有毒无毒、用药对象及作用部位对临床的重要性,为临床用药提供了很好的参考。本文本挖掘结果对理解《本草集要》语义内容、把握全书的学术思想,以及指导临床医师临证处方用药具有重要意义。提示将文本挖掘研究方法用于中医古籍文献的分析具有较好的前景和意义。
  参考文献:
  [1] Fu XJ, Wang ZHG, Qu Y, et al. Study on the networks of “nature- family-component” of Chinese medicinal herbs based on association rules mining[J]. Chinese Journal of Integrative Medicine, 2013,19(9):663-667.
  [2] 李梢.基于生物网络调控的方剂研究模式与实践[J].中西医结合学报, 2007,5(5):489-493.
  [3] Pippa Norris. Digital divide:Civic engagement, information poverty, and the internet world wide[M]. New York:Cambridge University Press,2001:1-3.
  [4] Cline MS, Smoot M, Cerami E, et al. Integration of biological networks and gene expression data using Cytoscape[J]. Nature Protocols,2007,2(10):2366-2382.
  [5] 吕婷,姜友好.文本挖掘在生物医学领域中的应用及其系统工具[J].中华医学图书情报杂志,2010,19(4):56-64.
  (收稿日期:2015-01-28)
  (修回日期:2015-03-21;编辑:华强)
其他文献
目的探讨养肝利胆颗粒与维生素c对小鼠慢性四氯化碳中毒引起肝损伤的保护作用。方法采用四氯化碳制作小鼠慢性肝损伤模型,检测小鼠血清谷丙转氨酶、谷草转氨酶和肝脏组织结构
目的 探讨丙戊酸钠联合喹硫平治疗老年躁狂发作的临床疗效和安全性. 方法 将60例老年躁狂发作患者随机分为两组,每组30例,均口服丙戊酸钠治疗,研究组联合奎硫平治疗,对照组联
目的评价拉莫三嗪治疗双相障碍急性抑郁发作的疗效及安全性。方法采用随机、平行对照的方法将117例双相障碍抑郁发作患者分别以拉莫三嗪(n=59)和碳酸锂治疗(n=58),疗程8周,分别于治
提出了优化配水系统水质的有效措施,包括确定水质问题,确定企业的水质目标和运行标准,优化运行工艺和加强管网维护,提高管理水平和加强监督管理等。
分别就计算机软盘及硬盘的防拷贝方法进行了较为全面的阐述.
目的观察频率相同的情况下不同音色的低频声波对健康人委中微循环及经皮氧分压的影响,探讨体感音乐疗法的作用机理。方法在30例健康人的委中附近,播放频率相同(98.00 Hz)、音色
目的探讨氟伏沙明与帕罗西汀治疗强迫症的临床疗效及安全性。方法将56例强迫症患者随机分为研究组和对照组各28例,分别给予氟伏沙明、帕罗西汀治疗。观察8周。于治疗前及治疗4
本文以太原安静花园1#楼单桩静载试验为依据,论述桩端侧后压浆工艺及单桩处理后受荷特性,说明本工程单桩极限承载力基本可以提高100%,并提出了这类桩基在太原应用的有关设计
目的探讨急性心肌梗塞患者个性特征、负性情绪和生活方式的临床特征,为临床干预提供依据。方法将91例急性心肌梗塞患者设为研究组,90名健康者设为对照组。采用艾森克个性问卷、