基于词法语义的大规模症状词生成与获取研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:myxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
症状术语(症状词)的数量和质量是医生诊断和智能诊断的基础之一,只有症状词的数量足够多,机器或医生才能在诊断推理时做到不漏诊、误诊。目前关于症状词提取、扩展的主流方法包括深度学习、支持向量机、随机场等,这些研究不是出于商业应用去实现真实世界大规模词的获取和扩展,而是着重于算法改进的实验性验证,如验证算法的测试精度、召回率等,而且训练样本和算法获取的症状词多在几百、几千规模,因此关于大规模症状词的获取和扩展未见国内外学术文献有报道,但市场调研发现市场上医疗大数据清洗、挖掘企业的医疗相关术语都在千万之多。因此,研究大规模获取商用症状术语的算法非常必要。当前研究热点中的有监督学习算法由于需要标注大量训练样本,基于此获取大规模商用症状术语存在人力成本瓶颈。本研究的目的在于借鉴当前实验性算法的优点,研制大规模获取症状词的方法和途径。已有研究发现,借助于症状词的词法语义,即词的构成规律,将词汇首先分解成基本词素,然后研制构词规律,接下来按照构词规律粘合2个以上的基本词素,最后将粘合后的候选症状词到真实医疗文本中验证。该种方法可以有效地扩展粘合后症状词数量,但不能扩展词素的数量。为解决该不足,本研究设计了一种应用一字词素扩展与其搭配的其他词素的算法。该算法首先截取核心症状词汇的一字开始词素或结束词素,用这些开始词素或结束词素到121万篇专业医疗文本中匹配并粘合其后或其前1-3个字符,将得到的字符串作为候选症状词,在搜索引擎中搜索,利用其高频、句中位置等特征判断得到的字符串是否为独立完整的词汇。由开始一字词素获取到60万个独立候选症状词,由结束一字词素获取到54万多的独立候选症状词。用算法和人工结合的方法,从独立候选症状词中获得新的部位词素以及新的症状特征词。新的词素并入原有词素集合后按构词规律粘合候选症状词后,再在搜索引擎中用独立性、完整性算法验证,获得新的症状词7万多。已有研究利用聚类、语义词典、词汇相似度等方法获得症状词的同义词,但获取的同义词数量很少。为了避开症状词开源数据缺乏,人工标注成本高的缺点,本研究借助于在搜索引擎中搜索后同义词被标注的特征,研制了获取底层同义词词库的算法,经词汇独立性、完整性算法的除杂,在原有的10万个症状词和新获取的7万多个症状词的基础上,获得症状词的同义词有24万多个。本研究也有一些不足之处,就是症状词中异常状态词素的人工识别比较花费时间,以后可以通过研究相应的算法提高人工识别、标注的效率。
其他文献
故障诊断是保障智能制造过程中设备安全、高效运行的关键技术之一。实时性和精确性是判断故障诊断效果的重要指标。在实际的工业现场中,有标签的故障样本获取较为困难,而负载的改变也会导致采集到的数据质量偏低。深度学习作为一种有效的数据特征抽取工具,在数据驱动的故障诊断领域得到广泛应用,但深度学习故障诊断的实时性和精确性受到三个方面因素的影响,即数据的数量、数据的质量和数据的利用方式。一方面是有标签的故障数据
学位
由于我国工业化、城市化进程的加快,致使大气污染问题日益严重。在大气污染排放物中,由地表热异常点中的秸秆焚烧和重工业企业生产活动排放的污染物占比最大。卫星遥感技术能精准快速地监测热异常点,弥补了传统人工监测的耗时和不精确等问题,已被应用于我国热异常点的监测研究中。MODIS传感器热异常数据产品具有完整的时间序列,适合作为研究长期热异常年际变化趋势的数据。由于MODIS数据下载、处理困难,致使利用它对
学位
车辆路径问题的研究促进了现代物流和垃圾运输等行业的发展。随着电子商务和物流行业的迅速发展,物流配送路线的合理规划能够降低车辆配送成本,减少社会资源浪费,对社会经济的可持续发展起着非常重要的作用。城市人口的快速增长和社会经济的迅速发展促进了我国城市化进程,同时城市生活垃圾的产生量呈逐年快速增长的趋势,因此及时高效的处理城市生活垃圾变得尤其重要,然而城市生活垃圾的运输问题是对其处理的重要环节,这关乎到
学位
基于判别式相关滤波器的目标跟踪方法具有较高的跟踪精度和较快的跟踪速率,被广泛应用于如人机交互、智能交通、安防监控、智慧医疗以及航空航天等领域。但是,在目标跟踪过程中,运动目标存在形变、长宽比变化及超出视野范围等情况,相机拍摄时会受到遮挡、光线变化、背景杂乱及摄像机抖动等外在因素的干扰,这些都为构建跟踪目标外观模型、滤波器模型以及目标尺度估计模型等带来了巨大挑战,极大地限制了跟踪的鲁棒性。因此,本文
学位
物联网、云计算、大数据、人工智能等新一代信息技术日新月异,正在深刻改变世界、改变着人们的生产和生活方式。信号处理领域传统的Nyquist-Shannon信号采样定理已无法满足实际应用需求,时代呼唤新技术“破茧化蝶”。压缩感知(Compressive Sensing)理论应时而生,突破了Nyquist-Shannon采样定理,它以比Nyquist采样频率要求的采样密度更稀疏的密度对信号进行随机亚采样
学位
基于字典对学习的图像识别方法已广泛应用于模式识别领域。分析-综合字典对学习结合了综合字典学习和分析字典学习的优点,简化了编码系数的计算,深受研究人员青睐。近年来,学者们提出了许多分析-综合字典对学习方法,在应对图像识别任务时,取得了不错的效果,但是,这些方法大多忽略了数据噪声的影响,并且训练十分耗时。此外,这些方法也没有考虑分析字典与综合字典之间的潜在关系。为了解决这些问题,进一步提高字典对的判别
学位
行人重识别技术旨在解决跨摄像头跨场景下行人的识别与检索问题,是智能监控的核心技术之一。传统的方法主要依据人工设计的特征和距离度量来完成行人重识别任务。近年来,深度神经网络表现出强大的特征表达能力,被越来越多的学者应用在行人重识别任务中。由于视角变化、相机风格变化、遮挡等干扰,同一行人样本呈现出明显的视觉差异,增加了行人重识别的难度。而现有数据集规模较小使得行人重识别研究更具有挑战性。针对以上问题,
学位
在科学研究及工程领域,许多实际应用问题常常被规范化为特定数学模型下的优化问题。而优化的问题往往具有求解空间大、维数多等特征,使得对其进行优化的方法面临着计算复杂程度高、求解持续时间短等问题。智能算法是一种基于概率的随机搜索进化算法。首先模拟种群的原始分布,然后利用随机搜索以及有选择性地遗留后代数据来仿真和模拟种群的演变过程,通过迭代和更新找寻最优理论和求解的目标。引力搜索算法作为一种较为新颖的智能
学位
语音识别作为人机交互的关键技术在语音搜索、语音智能控制及车载娱乐等领域得到广泛应用。端到端自动语音识别与传统自动语音识别相比较,摒弃了发音词典和语言模型,真正实现直接从语音转录成文本,解决了传统自动语音识别过程繁琐、准确率不足等问题。近年来,端到端自动语音识别逐渐的成为了研究热点。在此背景下,本文在基于混合CTC-Attention端到端自动语音识别架构的基础上进行研究,主要工作如下:(1)针对混
学位
近年来,随着大数据时代的到来,数据的不平衡问题日益突出,例如网络系统是否受到异常程序的干扰、视频监控系统中是否存在异常行为、医学上疾病的诊断、生物信息学中药物分子的活性检测、伪造信用卡的识别、大量垃圾邮件的过滤,其中异常程序、异常行为、罕见疾病以及活性位点、欺诈行为、非垃圾邮件的数据往往在总的样本集中占据较小的比重,然而对他们的正确预测在实际的生活中显得日益重要。如何使用现有的机器学习和数据挖掘技
学位