论文部分内容阅读
医学信息资源在数量和种类上的急剧增长,学科间的交叉融合不断涌现,科研人员及情报分析人员在把握学科领域研究热点的发展变化时面临越来越多的挑战。如何利用先进的计算技术快速主动地从海量信息资源中识别和判断研究主题的发展演化已经成为当前情报科学领域研究的一个热点。文章针对医学领域主题的演化识别问题,努力探索出一种自动识别和判断学科领域主题发展演化的有效方法,辅助科研人员和情报分析人员进行相关研究。文中首先分析国内外主题发展演化识别的相关理论和方法,并重点分析了医学领域主题演化识别的特点和基于社会网络法的主题演化分析方法,总结其对于学科主题演化判断的启示和当前在实践应用中存在的问题。本文在相关理论调研的基础上,结合医学领域的资源特点,提出一种新的基于社会网络分析的主题演化探测模型和相应的流程步骤。主要步骤包括医学概念词抽取、主题识别、主题关联、主题继承、新生和消亡事件的识别以及主题分裂融合事件的识别,其中主题分裂融合事件的识别步骤包括关键主题识别、关键主题的演化主路径识别、演化主路径上主题分裂、融合事件识别。在医学概念词抽取上,本文以文本映射工具MetaMap为基础,进行UMLS概念映射,并设计了基于语义类型的概念词抽取方案,采用’词-语义类型’的方式表示文本内容。在主题识别中采用LDA模型进行主题识别,以紧密关联的一组概念词集合来代表一个具体的研究主题。在主题关联上采用余弦相似度的计算方法,并用点度中心度识别关键主题,采用文本相似度之和的方式计算关键主题的演化主题路径,并借助相关的算法识别主路径上主题的分裂、融合事件。借助本文设计的判断模型和具体步骤,笔者选用乳腺癌治疗研究为实验案例,对判断模型进行试验。针对试验结果,笔者阅读相关文献综述以及对相关领域专家进行了访谈,其结果验证了本文探索出的技术方法具有一定的可靠性。通过以上的工作,本文设计和实现了医学领域主题演化的探测模型,探索出了一种判断医学领域主题继承、新生、消亡、分裂、融合事件的行之有效的方法,能够对情报领域主题演化识别判断起到积极的辅助作用。