基于文献标引词频统计的《中国中医药学主题词表》选词研究

来源 :中国中医药信息 | 被引量 : 0次 | 上传用户:feidog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:目的 通过对文献标引词频进行统计与分析,为中医药主题词表修订的选词提供依据。方法 以《中国中医药期刊文献数据库》近5年的文献标引词为数据来源,利用MS Access对主题词、关键词进行词频统计,再对结果进行分类与分析。结果 245 680篇文献涉及主题词18 796个,其中中医主题词6940个,标引使用的中医主题词占2007年版《中国中医药学主题词表》中主题词的83.47%;15个类目主题词利用率最低的是药用动植物类(69.97%),其次是自然科学类(71.01%)和中医精神疾病和心理学类(82.81%)。245 680篇文献涉及关键词136 832个,其中词频≥10次的关键词3485个,经分析剔除无意义词576个,初步推荐预选新主题词或入口词368个,其余2541个供词表修订时根据实际需要进行选择。结论 词频统计结果与分析为新版词表修订选词提供了依据。
  关键词:中医药学主题词表;修订;文献标引;词频统计
  中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2013)10-0016-03
  中国中医科学院中医药信息研究所研制的《中国中医药学主题词表》(以下简称《词表》)为国内外医学及中医药学信息领域广泛采用的中医药学专业主题词表,是数据库建设和检索的重要工具[1-2]。该词表的研制起步于20世纪70年代,第1版于1987年问世,虽于1996年、2007年曾两次修订,但随着医学信息领域研究的深入,该《词表》在词汇完备性、词语标准化和规范化方面都有待改进,主题词的注释、定义和英文译名也需重新审定、修正与补充。为了适应时代发展的需要,保证标引和检索质量,词表的修订工作迫在眉睫。
  对中医药学期刊文献主题词和关键词进行词频统计,是主题词表修订中选词工作的前提,词频统计结果是主题词表选词的重要参考依据之一[3],为此,我们选取近5年中医药期刊文献数据库的标引词进行词频统计分析。通过主题词词频统计准确地掌握现有主题词的标引使用频率,了解其文献保证率,从而判断原主题词选词的科学性和实用性,为主题词表修订提供可靠依据[4]。通过关键词词频统计,找出有意义的高频词,推荐为新主题词和入口词的预选对象。
  1 资料与方法
  1.1 数据来源
  数据来源于《中国中医药期刊文献数据库》,该数据库涵盖了中国国内出版的生物医学及其他相关期刊1400余种,包含中医药学、针灸、气功、按摩、保健等方面的内容,收录了1949年以来的中医药文献题录110余万篇,并采用美国国立医学图书馆的《医学主题词注释表》(MeSH)及《词表》进行规范的主题词标引。
  1.2 数据抽取方法
  抽取2008-2012年已完成标引的文献的主题词、关键词字段数据,抽取日期为2013年2月28日。
  1.3 数据处理方法
  应用Python语言自行开发的拆分工具对标引的主题词、关键词进行拆分,得到单独的主题词或关键词,再经数据整理、格式规范后,去掉主题词中的加权符号“*”。
  1.4 数据分析方法
  利用MS Access对主题词、关键词进行词频统计,再对其中的高频词进行人工分类与分析。
  2 结果与分析
  2.1 数据统计结果
  从《中国中医药期刊文献数据库》中共抽取文献245 680篇,涉及主题词18 796个,其中中医主题词6940个,涉及关键词136 832个。
  2.2 主题词词频分布
  2007年版《词表》的主题词分为15个类目,68个子类目,共有正式主题词8314个。将6940个中医主题词与2007年版《词表》的主题词对照比较,得出尚有1374个中医主题词在近5年的文献标引中未被使用,标引使用的中医主题词占2007年版《词表》中主题词的83.47%。按类目统计主题词使用情况见表1。在词表的68个子类目中,有4个子类目未被使用的主题词在100个以上,其中最多的是药用植物类(497个),其次是中医儿科疾病类(198个)、药用动物类(117个)和症状体征及证候类(117个)。
  在已用于标引的6940个中医主题词中,频次≥10 000次的有5个,频次≥5000次的有11个,频次≥4000次的有20个,见表2。
  2.3 关键词词频分布
  在136 832个关键词中,由于部分关键词为文献作者提供或杂志社标引,故关键词里还包含主题词和入口词,去掉其中的6281个主题词和3099个入口词后,实际关键词为127 452个。其中词频≥10次的3485个。
  通过对词频≥10次的关键词进行逐个分类与分析,主要归纳为6种情况。①2007年版《词表》未收录的中药制剂:共有340个,如丹红注射液(499)、痰热清注射液(418)、稳心颗粒(253)、通心络胶囊(228)、疏血通注射液(204)、参松养心胶囊(144)、舒血宁注射液(125)、艾迪注射液(114)、复方苦参注射液(112)。②近5年研究较多的技术与方法:共有28个,如热敏灸(87)、自血疗法(36)、平衡针(31)、银质针(27)、靳三针(25)、铍针(23)、深刺(20)、从毒论治(19)。③2007年版《词表》中已收录同一概念的主题词:共有2541个,如膝关节骨性关节炎(251)、原发性痛经(194)、慢性肾衰竭(187)、周围性面瘫(149)、循证护理(100)、重症急性胰腺炎(88)、慢性阻塞性肺病(78)、紫癜性肾炎(50)。④词频虽然高,但做主题词无实际意义:共有271个,如影响(5164)、疗效观察(3904)、分析(1594)、研究进展(1310)、建立(94)、认识(90)、效果(81)、规律(76)、处理(56)。⑤原标引概念不准确:共有234个,如并发(235)、安全性(125)、救治(75)、鉴定(55)、特征(46)、诱发(38)、浓度(34)、标准化(20)、客观化(20)。⑥属于文献类型、年龄分类、实验动物、年代共有71个,如实验研究(1101)、比较研究(212)、小儿(1032)、老年(652)、家兔(121)、模型大鼠(107)、荷瘤小鼠(43)、古代(31)、近代(14)。   从词频≥10次的关键词分类来看,属于原标引概念不准确、无实际意义或属于文献类型、年龄分类等的576个关键词应当剔除。属于2007年版《词表》未收录的中药制剂和近5年研究较多的技术与方法的368个关键词,初步推荐为预选新主题词或入口词。属于文献类型、年龄分类、实验动物、年代的关键词,已在标引文献类型、特征词、实验动物品种、医学史中表达,没必要作为主题词。其余的2541个关键词在2007年版《词表》中已收录同一概念的主题词,只能在词表修订时,根据实际需要从中选择入口词。
  3 讨论
  3.1 主题词
  通过2008-2012年《中国中医药期刊文献数据库》中标引主题词的词频统计,对主题词的应用情况有了基本了解,也发现主题词在使用过程中的一些问题。经过与2007年版《词表》中的主题词对照发现,有1374个中医主题词在标引中未被使用,说明词表中有大量无文献保证的词汇充斥其中,在修订时应该对这些词逐个进行分析,看是否有必要保留或进行归并。从15个类目主题词使用情况统计看,利用率最低的是药用动植物类(69.97%),其次是自然科学类(71.01%)和中医精神疾病和心理学类(82.81%),这三类主题词,特别是药用植物与药用动物子类目的主题词在修订时应重点关注。
  另外,从高频主题词来看,“复方”、“中药化学成分”、“中成药”、“辨证论治”和“辨证分型”都属于概念很大的主题词,频次高的原因,一方面是由于主题词表中供选择的专指主题词不够多,另一方面可能是文献标引时未标出与原文主题概念完全对应的最专指的主题词。排在首位的“复方”词频数高达65 910次,占文献总数的26.8%,考虑可能是自拟方较多,现有的主题词无法表示。其次是“中药化学成分”和“中成药”,原因可能是中药化学成分和中成药种类多,供选择的中药化学成分或中成药具体专指词不够多,建议修订时适当增加相关主题词。“辨证论治”和“辨证分型”频次高反映了中医临床的特点,原因可能是证型专指词不够多或具体证型未标出。“名医经验”频次高与研究相关内容的文献比较多有关。而“黄芪”、“丹参”、“当归”、“大黄”、“柴胡”、“白术”、“党参”频次高表明这几味药是中药组方中的常用药。
  3.2 关键词
  在主题词表修订过程中,文献中的高频关键词应该是选择新增主题词和入口词的重要来源。但由于数据库中的部分关键词为非专业人员标引,未参照《词表》或主题词标引规则进行标引,造成许多概念提取不准确,使许多高频关键词无法作为新主题词和入口词的预选对象。建议在数据库建库时,专业人员标引主题词的同时,对已有关键词进行规范,为今后《词表》的修订选词奠定基础。
  本研究只对词频≥10次的关键词进行了分类,统计结果具有一定的局限性。而实际上词频<10次的关键词,也可能是有意义的,有待于词表修订时继续分类与筛选。
  4 结语
  本文从词频统计的角度为新版《词表》修订选词提供了一些依据,具体修订还需考虑选词的科学性和实用性,是否能够反映学科发展的新成果、新动态,并兼顾到边缘学科和交叉学科的发展,以及词语的规范化和标准化等因素,使修订后的《词表》更好的为数据库建设和检索发挥作用。
  参考文献:
  [1] 吴兰成.中国中医药学主题词表[M].北京:中国中医古籍出版社,2007.
  [2] 范为宇,苏大明,胡艳敏,等.有关中英文版中医药学主题词表的研究[J].医学信息学杂志,2007,28(4):411-413.
  [3] 苏大明,吴兰成,朱冬生,等.基于编程技术的中医药学主题词表修订[J].国际中医中药杂志,2007,29(4):209-212.
  [4] 卜书庆,陈树年.《中国分类主题词表》修订的整体构想[J].中国图书馆学报,2000,26(6):13-16.
  (收稿日期:2013-05-12,编辑:华强)
其他文献
关键词:呼吸道传染病;中医疗法;综述  中图分类号:R259.6 文献标识码:A 文章编号:1005-5304(2014)02-0133-04  近年来,新发、突发呼吸道传染病频发,以发热伴呼吸道症状为主要特点,传染性强、传播速度快、病死率高,已成为备受世界各国关注和迫切需要解决的社会问题。在疫苗和抗病毒化学药物短缺及病毒容易变异的情况下,中医药的良好疗效再次受到关注。兹就近10年来中医药治疗新发
期刊
关键词:高血压病;左室肥厚;中药;逆转机制;综述  中图分类号:R259.422 文献标识码:A 文章编号:1005-5304(2014)02-0123-03  高血压病是最常见的心血管疾病之一,我国高血压病患病率高于20%,随着高血压病患病时间延长,约1/3的患者出现左室肥厚(LVH)[1]。高血压病LVH主要包括两方面的改变:①心肌细胞肥大、肌丝排列紊乱和收缩力下降;②心脏成纤维细胞(CFs)
期刊
关键词:中医西传学;人类学;法国  中图分类号:R2-03 文献标识码:A 文章编号:1005-5304(2013)10-0004-02  “中医西传学”是2012年获得国家中医药管理局“十二五”重点学科立项始建的培育学科,属医学-人类学交叉的新兴学科。该学科是通过人类学实地调查,描述传入西方社会的中医的形态、历史、演变,揭示其文化模式,为中医药对外交流与合作提供理论支撑的学科;并以中医西传学的研
期刊
摘要:目的 观察山药多糖对肾缺血再灌注损伤大鼠肾组织缺氧诱导因子-1α(HIF-1α)和血管内皮生长因子(VEGF)表达的影响,并探讨其作用机制。方法 SD大鼠随机分为假手术组、模型组、山药多糖组,制备肾缺血再灌注损伤大鼠模型,术前7 d,山药多糖组每日给予山药多糖(200 mg/kg)灌胃,假手术组和模型组每日给予等体积生理盐水灌胃,缺血再灌注6 h后,检测各组大鼠血尿素氮(BUN)和血肌酐(S
期刊
关键词:名医经验;顾旭;心绞痛;气血;辨证论治  中图分类号:R259.414.2 文献标识码:A 文章编号:1005-5304(2014)02-0114-01  目前,冠状动脉内支架植入术(PCI)后心绞痛复发主要原因有:①再发新的冠状动脉病变(如冠脉狭窄或痉挛);②PCI治疗为不完全血运重建,还有其他冠脉病变狭窄未能解除;③PCI后再狭窄。对第一个原因可以再行冠状动脉造影检查,必要时再行PCI
期刊
关键词:山西;中药产业;主成分分析法;中药发展研究  中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2013)10-0001-03  中药产业作为我国具有较大优势的传统产业,为医药经济的快速发展发挥了重要作用。2009年,国务院公布的新医疗卫生体制改革方案中提出坚持立足国情,充分发挥中医药(民族医药)在疾病预防控制、应对突发公共卫生事件、医疗服务中的作用。2010年10月,
期刊
摘要:目的 建立复方天麻钩藤口腔崩解片的质量标准。方法 采用薄层色谱法对制剂中的天麻、钩藤、当归、白芍进行定性鉴别,采用高效液相色谱法测定制剂中的天麻素。结果 薄层鉴别图谱清晰,阴性对照无干扰。天麻素进样量在0.191 2~1.147 2 μg范围内线性关系良好(r=0.999 9),平均回收率为97.72%(RSD=1.40%,n=6)。结论 本方法简便、重复性好,可有效控制制剂的质量。  关键
期刊
摘要:目的 研究血清锌、铁、铜、镁、磷、钙与胚胎停育虚证的关系,为中医助孕、安胎提供治疗思路。方法 随机选择100例胚胎停育(孕6~10周)患者为调查组,另100例宫内早孕活胎者为对照组,采用原子吸收光谱法测定微量元素含量。结果 胚胎停育患者血清微量元素含量普遍偏低;脾虚型患者血清铁及肾虚型患者血清锌、铁含量明显降低(P0.05)。2组籍贯均为河北籍,活动范围相似,具有可比性。  1.2 诊断及辨
期刊
摘要:目的 探讨中药七情配伍中相畏药对的组合规律。方法 收集整理《本草纲目》中的相畏药对,采用关联规则和复杂系统熵聚类方法,分析相畏药物中单味药物和药物组合的出现频次及药物之间的关联规则。结果 相畏药组中出现频次较高的单味药包括黄连、巴豆、大黄、扁青、石菖蒲等,出现频次较高的药物组合是“扁青,茵陈蒿”、“巴豆,黄连”、“巴豆,黑豆”等,置信度为1的关联规则包括“靛汁→巴豆”、“靛汁→黄连”等。结论
期刊
摘要:目的 探讨团体心理治疗对中风偏瘫患者临床疗效的影响。方法 60例中风偏瘫患者按随机卡法分为治疗组和对照组,每组30例。患者均予常规临床治疗及康复训练,在此基础上,治疗组给予团体心理治疗。4周后,评定汉密顿抑郁量表-17(HAMD-17)、改良Barthel指数(MBI),并比较2组患者抑郁症发生率。结果 治疗组在抑郁程度、日常生活活动能力方面的改善明显优于对照组(P24分为严重抑郁,>17分
期刊