基于LDA和LSA的医学文本和影像分析模型及应用研究

被引量 : 0次 | 上传用户:erdanws
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学文本及影像数据可以利用语义分析技术来进行建模和统计,从而分析得到各种数据间的数学关系。这种不含有人主观色彩的数据分析技术可以为医生提供客观的诊断依据及辅助诊疗信息。对数据信息进行语义建模是语义分析的基础,目前隐变量模型和树模型是国内外在语义建模领域的两种主流研究方向,针对医学信息的特点,两种语义建模方法各有利弊:(1)隐变量模型可以较好地从医学信息集中提取出“概念、规则和模式”之间存在的潜在关联性。由于隐变量模型都是基于词袋(bag of words)的设计思想,因此建模过程中忽略了信息中语义元素的结构、位置和层次等浅层语义特征,而在医学信息应用的各个环节(比如检索、文本生成等)中都不同程度地需要利用这些语义特征。(2)树模型能利用拓扑结构反映出语义元素之间语义相关、相对位置或空间分布等关联性,如剖析树、上下文树等。树模型的建模对象一般是简单的概率关系或字面语义,缺乏从隐含语义的角度对信息进行的分析,因此无法从更深层次对医学信息进行处理和利用(比如辅助诊断)。在对以上模型研究的基础之上,针对目前医学信息语义分析技术存在的实际问题,本文从医学文本语义检索、医学图像语义标注、基于语义分析的诊断文本生成三个方面进行了研究,提出了相应的语义建模和语义信息处理方法,论文的主要研究内容及取得的创新性成果如下:(1)在医学文本语义信息处理方面,提出了一种将隐含语义分析与树模型相融合的LSA-tree模型。利用该模型可以对具有半结构的文本病历实现从字面语义到隐含语义的综合提取。这种方法首先利用语义窗口对文本进行分割,之后再将窗中词划分为几个子树,然后计算子树中核心词与相关词之间的字面语义参数,最后通过LSA在隐含语义空间中的映射,提取出核心词之间的关联性。通过实验可以证明,对文本病例采用基于LSA-tree模型的语义检索系统,由于LSA-tree模型更加准确和全面地表达了文本病例的语义信息,因此不仅简化了原LSA模型复杂度并且实现了医学专业词的语义消歧(多词一义),从而提高了检索精度。(2)在医学图像语义信息处理方面,提出了一种基于LDA-tree模型的X线相干散射图像语义标注方法。针对X线相干散射图像中存在的可识别特征较少、图像抽象本体、图像特征互扰,首先提出一种基于树结构的图像分解方法,利用这一方法图像被分解成含有图像语义特征的区域和片段(子图),之后在这些子图中提取了图像的形态学特征、光度学特征以及拓扑学特征,并对图像的能量分布曲线和拓扑结构信息进行了量化编码。进一步地,为了跨越语义鸿沟实现图像语义的文本标注,本文引入了LDA模型的参数估计和变分推理过程,并利用图形词袋将图像树模型与LDA模型进行了联合。通过实验可以证明,采用基于LDA-tree模型的语义标注方法实现了对X线相干散射图像的图像语义标注,并且LDA-tree语义标注方法的匹配准确度要优于基于PLSA的语义标注方法,其对于X线相干散射的成像差异、噪声和图像特征互扰等影响因素也有较好的抑制作用。(3)在医学语义文本生成和辅助诊断方面,提出了一种用于生成医学图像诊断意见的LDA-LSA-tree模型。在分析医学影像报告文本特点的基础之上,针对LSA-tree模型处理医学影像报告可能存在的语义信息提取不够完备的问题,在字面语义层通过修正平均距离来获得词的上下文位置信息并对停用词进行语义信息统计;为了实现对病症在内容层面上的推理过程,提出了一种基于LSA的K中心内容聚类分析法对医学影像报告文本进行聚类和权值预置,并将文本的内容聚类作为LSA-tree模型的中间语义层。在对自然语义生成技术的研究基础之上,根据自然语言生成系统构造和生成本文过程对语义信息的需求,提出了用于自然语言生成的LDA-LSA-tree模型,用从主题内容到词之间的映射弥补了LSA-tree在语义推理上的欠缺,从而符合自然语言生成系统在内容规划建模方面对“结构构造”和“内容确定”的双重要求。推理部分采用了“关联-加权”的方案,引入词频-逆序文档频率加权法,实现在平滑LDA模型的Gibbs抽取算法过程中进行语义复合加权。通过实验可以证明,目前常见的关键词匹配模型生成文本方法虽然简单易行,但其生成文本的语义匹配度和可读性很低,无法为医生诊断提供更多有价值信息,而本文提出的基于LDA-LSA-tree模型的NLG方法充分考虑到医学诊断报告的各种语义细节,生成结果也类似于人工批注的文本,并且由于提出的LDA-LSA-tree模型有较好的主题模型性能,因此其推理得到诊断信息的准确度也优于其他语义文本生成模型。本文采用的文本病例、诊断报告等数据来自于XX肿瘤医院、X线相干散射成像数据来自于XX大学第三医院,每一组数据使用前均经过医学专家会诊审核。实验过程与目前临床实际采用的几种主要及较新的医学信息处理方法进行比较,并用医学专家评价和通用标准综合分析实验结果,可以验证本文方法和模型的有效性。
其他文献
我国1997年修订通过的《中华人民共和国刑法》(以下简称“现行刑法”)第五章第276条规定了破坏生产经营罪,虽然该罪名并不是现行刑法的新增罪名,但是一直以来刑法理论界对其
目的:深入了解青年急性白血病患者在治疗期间的内心感受--自我感受负担;掌握患者在住院期间的护理需求,为护理人员为患者进行心理支持提供理论依据。为护理专业知识体系发展提供
背景:卒中(stroke)发病率高达120~180/10万,缺血性卒中是其主要类型[4]。动脉硬化性动脉狭窄是引起缺血性脑血管病的主要因素之一,研究资料显示70%的TIA患者存在颅内或颅外血管
目的本研究旨在建立一个简便易行且科学合理的计算护理工作量的数学模型,以预测各病区护理工作量,为管理者调配人员、计划及预测护理人力,制定合理的收费标准提供科学依据。
21世纪,知识对经济的发展起着重要的作用,正取代资本成为最稀缺和最重要的资源。对于一个企业来说,最有价值的资产是员工的知识、技能和不断创新的能力,企业要想拥有持续的竞争力
随着计算机网络的高速发展,互联网技术在各个领域中的应用日益普及,特别是随着办公自动化(Office Automation,OA)技术在电子政务和电子商务中大量应用,电子文档已经逐渐替代
香港特殊的历史、地理和文化背景,使香港社会展现出不同于其他华语地区的独特文化景观。较少意识形态的制约使香港文学能够自由独立地发展,华洋杂处、中西交汇,殖民文化和传
嘧啶酮、吡唑啉类化合物在医药和农药均有很好的应用,此外吡唑啉类衍生物在荧光增白剂和荧光识别等领域也有很好的应用。因此,通过, β-不饱和酮与脲的加成构建嘧啶酮及吡唑啉
随着江西经济的发展与环境和资源冲突的加剧,加上在鄱阳湖生态经济区的背景下,工业园区生态化建设将成为循环经济领域的一个重要问题,生态工业园区是工业园区发展的最终方向,
环氧树脂(EP)具有较好的粘接强度,综合性能良好,低收缩性等优点。唯其耐热性不够高,性脆,通过多种途径改性后,性能极佳,为耐热结构胶的首选材料。本文从EP结构上进行增韧与耐