论文部分内容阅读
摘要:目的 通过对文献标引词频进行统计与分析,为中医药主题词表修订的选词提供依据。方法 以《中国中医药期刊文献数据库》近5年的文献标引词为数据来源,利用MS Access对主题词、关键词进行词频统计,再对结果进行分类与分析。结果 245 680篇文献涉及主题词18 796个,其中中医主题词6940个,标引使用的中医主题词占2007年版《中国中医药学主题词表》中主题词的83.47%;15个类目主题词利用率最低的是药用动植物类(69.97%),其次是自然科学类(71.01%)和中医精神疾病和心理学类(82.81%)。245 680篇文献涉及关键词136 832个,其中词频≥10次的关键词3485个,经分析剔除无意义词576个,初步推荐预选新主题词或入口词368个,其余2541个供词表修订时根据实际需要进行选择。结论 词频统计结果与分析为新版词表修订选词提供了依据。
关键词:中医药学主题词表;修订;文献标引;词频统计
中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2013)10-0016-03
中国中医科学院中医药信息研究所研制的《中国中医药学主题词表》(以下简称《词表》)为国内外医学及中医药学信息领域广泛采用的中医药学专业主题词表,是数据库建设和检索的重要工具[1-2]。该词表的研制起步于20世纪70年代,第1版于1987年问世,虽于1996年、2007年曾两次修订,但随着医学信息领域研究的深入,该《词表》在词汇完备性、词语标准化和规范化方面都有待改进,主题词的注释、定义和英文译名也需重新审定、修正与补充。为了适应时代发展的需要,保证标引和检索质量,词表的修订工作迫在眉睫。
对中医药学期刊文献主题词和关键词进行词频统计,是主题词表修订中选词工作的前提,词频统计结果是主题词表选词的重要参考依据之一[3],为此,我们选取近5年中医药期刊文献数据库的标引词进行词频统计分析。通过主题词词频统计准确地掌握现有主题词的标引使用频率,了解其文献保证率,从而判断原主题词选词的科学性和实用性,为主题词表修订提供可靠依据[4]。通过关键词词频统计,找出有意义的高频词,推荐为新主题词和入口词的预选对象。
1 资料与方法
1.1 数据来源
数据来源于《中国中医药期刊文献数据库》,该数据库涵盖了中国国内出版的生物医学及其他相关期刊1400余种,包含中医药学、针灸、气功、按摩、保健等方面的内容,收录了1949年以来的中医药文献题录110余万篇,并采用美国国立医学图书馆的《医学主题词注释表》(MeSH)及《词表》进行规范的主题词标引。
1.2 数据抽取方法
抽取2008-2012年已完成标引的文献的主题词、关键词字段数据,抽取日期为2013年2月28日。
1.3 数据处理方法
应用Python语言自行开发的拆分工具对标引的主题词、关键词进行拆分,得到单独的主题词或关键词,再经数据整理、格式规范后,去掉主题词中的加权符号“*”。
1.4 数据分析方法
利用MS Access对主题词、关键词进行词频统计,再对其中的高频词进行人工分类与分析。
2 结果与分析
2.1 数据统计结果
从《中国中医药期刊文献数据库》中共抽取文献245 680篇,涉及主题词18 796个,其中中医主题词6940个,涉及关键词136 832个。
2.2 主题词词频分布
2007年版《词表》的主题词分为15个类目,68个子类目,共有正式主题词8314个。将6940个中医主题词与2007年版《词表》的主题词对照比较,得出尚有1374个中医主题词在近5年的文献标引中未被使用,标引使用的中医主题词占2007年版《词表》中主题词的83.47%。按类目统计主题词使用情况见表1。在词表的68个子类目中,有4个子类目未被使用的主题词在100个以上,其中最多的是药用植物类(497个),其次是中医儿科疾病类(198个)、药用动物类(117个)和症状体征及证候类(117个)。
在已用于标引的6940个中医主题词中,频次≥10 000次的有5个,频次≥5000次的有11个,频次≥4000次的有20个,见表2。
2.3 关键词词频分布
在136 832个关键词中,由于部分关键词为文献作者提供或杂志社标引,故关键词里还包含主题词和入口词,去掉其中的6281个主题词和3099个入口词后,实际关键词为127 452个。其中词频≥10次的3485个。
通过对词频≥10次的关键词进行逐个分类与分析,主要归纳为6种情况。①2007年版《词表》未收录的中药制剂:共有340个,如丹红注射液(499)、痰热清注射液(418)、稳心颗粒(253)、通心络胶囊(228)、疏血通注射液(204)、参松养心胶囊(144)、舒血宁注射液(125)、艾迪注射液(114)、复方苦参注射液(112)。②近5年研究较多的技术与方法:共有28个,如热敏灸(87)、自血疗法(36)、平衡针(31)、银质针(27)、靳三针(25)、铍针(23)、深刺(20)、从毒论治(19)。③2007年版《词表》中已收录同一概念的主题词:共有2541个,如膝关节骨性关节炎(251)、原发性痛经(194)、慢性肾衰竭(187)、周围性面瘫(149)、循证护理(100)、重症急性胰腺炎(88)、慢性阻塞性肺病(78)、紫癜性肾炎(50)。④词频虽然高,但做主题词无实际意义:共有271个,如影响(5164)、疗效观察(3904)、分析(1594)、研究进展(1310)、建立(94)、认识(90)、效果(81)、规律(76)、处理(56)。⑤原标引概念不准确:共有234个,如并发(235)、安全性(125)、救治(75)、鉴定(55)、特征(46)、诱发(38)、浓度(34)、标准化(20)、客观化(20)。⑥属于文献类型、年龄分类、实验动物、年代共有71个,如实验研究(1101)、比较研究(212)、小儿(1032)、老年(652)、家兔(121)、模型大鼠(107)、荷瘤小鼠(43)、古代(31)、近代(14)。 从词频≥10次的关键词分类来看,属于原标引概念不准确、无实际意义或属于文献类型、年龄分类等的576个关键词应当剔除。属于2007年版《词表》未收录的中药制剂和近5年研究较多的技术与方法的368个关键词,初步推荐为预选新主题词或入口词。属于文献类型、年龄分类、实验动物、年代的关键词,已在标引文献类型、特征词、实验动物品种、医学史中表达,没必要作为主题词。其余的2541个关键词在2007年版《词表》中已收录同一概念的主题词,只能在词表修订时,根据实际需要从中选择入口词。
3 讨论
3.1 主题词
通过2008-2012年《中国中医药期刊文献数据库》中标引主题词的词频统计,对主题词的应用情况有了基本了解,也发现主题词在使用过程中的一些问题。经过与2007年版《词表》中的主题词对照发现,有1374个中医主题词在标引中未被使用,说明词表中有大量无文献保证的词汇充斥其中,在修订时应该对这些词逐个进行分析,看是否有必要保留或进行归并。从15个类目主题词使用情况统计看,利用率最低的是药用动植物类(69.97%),其次是自然科学类(71.01%)和中医精神疾病和心理学类(82.81%),这三类主题词,特别是药用植物与药用动物子类目的主题词在修订时应重点关注。
另外,从高频主题词来看,“复方”、“中药化学成分”、“中成药”、“辨证论治”和“辨证分型”都属于概念很大的主题词,频次高的原因,一方面是由于主题词表中供选择的专指主题词不够多,另一方面可能是文献标引时未标出与原文主题概念完全对应的最专指的主题词。排在首位的“复方”词频数高达65 910次,占文献总数的26.8%,考虑可能是自拟方较多,现有的主题词无法表示。其次是“中药化学成分”和“中成药”,原因可能是中药化学成分和中成药种类多,供选择的中药化学成分或中成药具体专指词不够多,建议修订时适当增加相关主题词。“辨证论治”和“辨证分型”频次高反映了中医临床的特点,原因可能是证型专指词不够多或具体证型未标出。“名医经验”频次高与研究相关内容的文献比较多有关。而“黄芪”、“丹参”、“当归”、“大黄”、“柴胡”、“白术”、“党参”频次高表明这几味药是中药组方中的常用药。
3.2 关键词
在主题词表修订过程中,文献中的高频关键词应该是选择新增主题词和入口词的重要来源。但由于数据库中的部分关键词为非专业人员标引,未参照《词表》或主题词标引规则进行标引,造成许多概念提取不准确,使许多高频关键词无法作为新主题词和入口词的预选对象。建议在数据库建库时,专业人员标引主题词的同时,对已有关键词进行规范,为今后《词表》的修订选词奠定基础。
本研究只对词频≥10次的关键词进行了分类,统计结果具有一定的局限性。而实际上词频<10次的关键词,也可能是有意义的,有待于词表修订时继续分类与筛选。
4 结语
本文从词频统计的角度为新版《词表》修订选词提供了一些依据,具体修订还需考虑选词的科学性和实用性,是否能够反映学科发展的新成果、新动态,并兼顾到边缘学科和交叉学科的发展,以及词语的规范化和标准化等因素,使修订后的《词表》更好的为数据库建设和检索发挥作用。
参考文献:
[1] 吴兰成.中国中医药学主题词表[M].北京:中国中医古籍出版社,2007.
[2] 范为宇,苏大明,胡艳敏,等.有关中英文版中医药学主题词表的研究[J].医学信息学杂志,2007,28(4):411-413.
[3] 苏大明,吴兰成,朱冬生,等.基于编程技术的中医药学主题词表修订[J].国际中医中药杂志,2007,29(4):209-212.
[4] 卜书庆,陈树年.《中国分类主题词表》修订的整体构想[J].中国图书馆学报,2000,26(6):13-16.
(收稿日期:2013-05-12,编辑:华强)
关键词:中医药学主题词表;修订;文献标引;词频统计
中图分类号:R2-05 文献标识码:A 文章编号:1005-5304(2013)10-0016-03
中国中医科学院中医药信息研究所研制的《中国中医药学主题词表》(以下简称《词表》)为国内外医学及中医药学信息领域广泛采用的中医药学专业主题词表,是数据库建设和检索的重要工具[1-2]。该词表的研制起步于20世纪70年代,第1版于1987年问世,虽于1996年、2007年曾两次修订,但随着医学信息领域研究的深入,该《词表》在词汇完备性、词语标准化和规范化方面都有待改进,主题词的注释、定义和英文译名也需重新审定、修正与补充。为了适应时代发展的需要,保证标引和检索质量,词表的修订工作迫在眉睫。
对中医药学期刊文献主题词和关键词进行词频统计,是主题词表修订中选词工作的前提,词频统计结果是主题词表选词的重要参考依据之一[3],为此,我们选取近5年中医药期刊文献数据库的标引词进行词频统计分析。通过主题词词频统计准确地掌握现有主题词的标引使用频率,了解其文献保证率,从而判断原主题词选词的科学性和实用性,为主题词表修订提供可靠依据[4]。通过关键词词频统计,找出有意义的高频词,推荐为新主题词和入口词的预选对象。
1 资料与方法
1.1 数据来源
数据来源于《中国中医药期刊文献数据库》,该数据库涵盖了中国国内出版的生物医学及其他相关期刊1400余种,包含中医药学、针灸、气功、按摩、保健等方面的内容,收录了1949年以来的中医药文献题录110余万篇,并采用美国国立医学图书馆的《医学主题词注释表》(MeSH)及《词表》进行规范的主题词标引。
1.2 数据抽取方法
抽取2008-2012年已完成标引的文献的主题词、关键词字段数据,抽取日期为2013年2月28日。
1.3 数据处理方法
应用Python语言自行开发的拆分工具对标引的主题词、关键词进行拆分,得到单独的主题词或关键词,再经数据整理、格式规范后,去掉主题词中的加权符号“*”。
1.4 数据分析方法
利用MS Access对主题词、关键词进行词频统计,再对其中的高频词进行人工分类与分析。
2 结果与分析
2.1 数据统计结果
从《中国中医药期刊文献数据库》中共抽取文献245 680篇,涉及主题词18 796个,其中中医主题词6940个,涉及关键词136 832个。
2.2 主题词词频分布
2007年版《词表》的主题词分为15个类目,68个子类目,共有正式主题词8314个。将6940个中医主题词与2007年版《词表》的主题词对照比较,得出尚有1374个中医主题词在近5年的文献标引中未被使用,标引使用的中医主题词占2007年版《词表》中主题词的83.47%。按类目统计主题词使用情况见表1。在词表的68个子类目中,有4个子类目未被使用的主题词在100个以上,其中最多的是药用植物类(497个),其次是中医儿科疾病类(198个)、药用动物类(117个)和症状体征及证候类(117个)。
在已用于标引的6940个中医主题词中,频次≥10 000次的有5个,频次≥5000次的有11个,频次≥4000次的有20个,见表2。
2.3 关键词词频分布
在136 832个关键词中,由于部分关键词为文献作者提供或杂志社标引,故关键词里还包含主题词和入口词,去掉其中的6281个主题词和3099个入口词后,实际关键词为127 452个。其中词频≥10次的3485个。
通过对词频≥10次的关键词进行逐个分类与分析,主要归纳为6种情况。①2007年版《词表》未收录的中药制剂:共有340个,如丹红注射液(499)、痰热清注射液(418)、稳心颗粒(253)、通心络胶囊(228)、疏血通注射液(204)、参松养心胶囊(144)、舒血宁注射液(125)、艾迪注射液(114)、复方苦参注射液(112)。②近5年研究较多的技术与方法:共有28个,如热敏灸(87)、自血疗法(36)、平衡针(31)、银质针(27)、靳三针(25)、铍针(23)、深刺(20)、从毒论治(19)。③2007年版《词表》中已收录同一概念的主题词:共有2541个,如膝关节骨性关节炎(251)、原发性痛经(194)、慢性肾衰竭(187)、周围性面瘫(149)、循证护理(100)、重症急性胰腺炎(88)、慢性阻塞性肺病(78)、紫癜性肾炎(50)。④词频虽然高,但做主题词无实际意义:共有271个,如影响(5164)、疗效观察(3904)、分析(1594)、研究进展(1310)、建立(94)、认识(90)、效果(81)、规律(76)、处理(56)。⑤原标引概念不准确:共有234个,如并发(235)、安全性(125)、救治(75)、鉴定(55)、特征(46)、诱发(38)、浓度(34)、标准化(20)、客观化(20)。⑥属于文献类型、年龄分类、实验动物、年代共有71个,如实验研究(1101)、比较研究(212)、小儿(1032)、老年(652)、家兔(121)、模型大鼠(107)、荷瘤小鼠(43)、古代(31)、近代(14)。 从词频≥10次的关键词分类来看,属于原标引概念不准确、无实际意义或属于文献类型、年龄分类等的576个关键词应当剔除。属于2007年版《词表》未收录的中药制剂和近5年研究较多的技术与方法的368个关键词,初步推荐为预选新主题词或入口词。属于文献类型、年龄分类、实验动物、年代的关键词,已在标引文献类型、特征词、实验动物品种、医学史中表达,没必要作为主题词。其余的2541个关键词在2007年版《词表》中已收录同一概念的主题词,只能在词表修订时,根据实际需要从中选择入口词。
3 讨论
3.1 主题词
通过2008-2012年《中国中医药期刊文献数据库》中标引主题词的词频统计,对主题词的应用情况有了基本了解,也发现主题词在使用过程中的一些问题。经过与2007年版《词表》中的主题词对照发现,有1374个中医主题词在标引中未被使用,说明词表中有大量无文献保证的词汇充斥其中,在修订时应该对这些词逐个进行分析,看是否有必要保留或进行归并。从15个类目主题词使用情况统计看,利用率最低的是药用动植物类(69.97%),其次是自然科学类(71.01%)和中医精神疾病和心理学类(82.81%),这三类主题词,特别是药用植物与药用动物子类目的主题词在修订时应重点关注。
另外,从高频主题词来看,“复方”、“中药化学成分”、“中成药”、“辨证论治”和“辨证分型”都属于概念很大的主题词,频次高的原因,一方面是由于主题词表中供选择的专指主题词不够多,另一方面可能是文献标引时未标出与原文主题概念完全对应的最专指的主题词。排在首位的“复方”词频数高达65 910次,占文献总数的26.8%,考虑可能是自拟方较多,现有的主题词无法表示。其次是“中药化学成分”和“中成药”,原因可能是中药化学成分和中成药种类多,供选择的中药化学成分或中成药具体专指词不够多,建议修订时适当增加相关主题词。“辨证论治”和“辨证分型”频次高反映了中医临床的特点,原因可能是证型专指词不够多或具体证型未标出。“名医经验”频次高与研究相关内容的文献比较多有关。而“黄芪”、“丹参”、“当归”、“大黄”、“柴胡”、“白术”、“党参”频次高表明这几味药是中药组方中的常用药。
3.2 关键词
在主题词表修订过程中,文献中的高频关键词应该是选择新增主题词和入口词的重要来源。但由于数据库中的部分关键词为非专业人员标引,未参照《词表》或主题词标引规则进行标引,造成许多概念提取不准确,使许多高频关键词无法作为新主题词和入口词的预选对象。建议在数据库建库时,专业人员标引主题词的同时,对已有关键词进行规范,为今后《词表》的修订选词奠定基础。
本研究只对词频≥10次的关键词进行了分类,统计结果具有一定的局限性。而实际上词频<10次的关键词,也可能是有意义的,有待于词表修订时继续分类与筛选。
4 结语
本文从词频统计的角度为新版《词表》修订选词提供了一些依据,具体修订还需考虑选词的科学性和实用性,是否能够反映学科发展的新成果、新动态,并兼顾到边缘学科和交叉学科的发展,以及词语的规范化和标准化等因素,使修订后的《词表》更好的为数据库建设和检索发挥作用。
参考文献:
[1] 吴兰成.中国中医药学主题词表[M].北京:中国中医古籍出版社,2007.
[2] 范为宇,苏大明,胡艳敏,等.有关中英文版中医药学主题词表的研究[J].医学信息学杂志,2007,28(4):411-413.
[3] 苏大明,吴兰成,朱冬生,等.基于编程技术的中医药学主题词表修订[J].国际中医中药杂志,2007,29(4):209-212.
[4] 卜书庆,陈树年.《中国分类主题词表》修订的整体构想[J].中国图书馆学报,2000,26(6):13-16.
(收稿日期:2013-05-12,编辑:华强)