基于机器学习算法的自然语言处理研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:freedomo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Text mining(TM),也称为智能文本分析,通常指使用各种先进的机器学习技术探索和分析大量非结构化文本数据的过程,这些技术可以识别数据中潜在的概念,模式,主题,关键字和其他属性。在第一部分工作中,分析了不同时期(跨越几个世纪)的词汇变化,以及判断某一文本所属的时代。提出了一个Term Pace计算模型(TPCM),其计算词汇的演化速度以及词汇中的结构变化。TPCM由四个模块组成,包括术语相关计数(TRC)、反向平均片段(IAF)、片段词典加权比较(FLWC)和术语速度(TeP)。TRC提取最常用的单词,IAF决定选择哪些词汇进行统计。FLWC用于发现词汇的在不同时段的变化。TeP非常重要,它计算一个术语随着不同时间段(即15、16、17、18、19世纪)的变化速度。本文第二个工作提出了一个识别特定文本所属年代/世纪的模型,该模型基于无监督算法终身文本提取器(LTE),它计算文本之间的相似性并判断文本的年代。LTE使用相似性的度量为每个文档分配主题。此外,本文还提出了一种用于情感分析的混合分类算法(HCCA),以提高分类准确性。HCCA是多个机器学习算法的组合,即Naive Bayes(NB),最大熵(MaxE)和支持向量机(SVM)。本文提出混合NB(HNB),混合MaxE(HMaxE)和混合Huberized支持向量机(HHSVM)。HCCA提高了情感分类的准确性。此外,深度学习(DL)在自然语言处理(NLP)中极具重要性,并且促进了当前领域的发展。目前,DL技术(例如图卷积网络)被用于文本挖掘的初始预处理(例如文本分类),能够获得更好的结果。文本分类是自然语言处理(NLP)发展中的一个重要且经典的问题。基于卷积神经网络的一系列研究已经应用于文本分类。然而,图卷积神经网络在文本挖掘领域的研究还较少。本文使用图卷积网络对文本进行分类。基于文档中的单词和句子之间的关系构建语料库图结构,并训练了句子图卷积网络(SentGCN)。在其中,提出了一种新的基于PMI和TF-IDF的改进方法。在多个基线数据集上进行了实验,结果表明,在没有任何外部词嵌入或知识的前提下,SentGCN模型性能较优。
其他文献
炎症是免疫反应的重要组成部分,是机体针对病原体、组织损伤等刺激产生的重要病理生理反应,其目的是清除感染源、恢复组织稳态。为了既能达到良好清除效果又能避免对宿主的过度损伤,炎症反应的进程受到严格的调控。在炎症反应的初始阶段,组织原位的巨噬细胞侦测到损伤信号后被激活,并迅速在损伤部位募集中性粒细胞;继而大量单核细胞浸润,并在致炎微环境作用下分化成巨噬细胞。一经激活,这些巨噬细胞呈现促炎的经典激活表型(
取鲜葱白100150g,加食盐5g共捣为泥,用纱布包好,置于神阙穴,然后用两条艾绒同时点燃在其上温灸,每次1530分钟.
期刊
心力衰竭是一个严重的临床和公共卫生问题,随着时间的推移,发病率和死亡率显著增加。心衰的特征是交感神经系统和RAAS激活,同时伴有心肌中ROS水平的增加。鉴于氧化应激在心力衰竭中的重要性,清除过量的活性氧来减轻心肌损伤在理论上是可行的,然而,目前大多数的抗氧化治疗措施未能达到预期的效果,这可能与药物在心脏的滞留时间和累积量不足,在其它脏器的非特异性分布较多以及药物的抗氧化能力不足等原因有关。因此,探
全球卫星导航系统(Global Navigation Satellite System,GNSS)的发展和现代化升级为用户提供多星座、多信号频率和多信号体制等多样性观测信息、灵活的处理方式和更优越的定位、导航和授时服务。GNSS/INS深组合导航技术深度融合接收机基带与惯性导航系统(Inertial Navigation System,INS)信息,是GNSS接收机性能提升的重要手段。现有的GNS
砌体结构是我国乃至世界传统建筑的一种主要结构形式,在办公楼、住宅、学校、医院等建筑工程中得到广泛应用。我国海岸线较长,大量近海建(构)筑长期遭受氯盐侵蚀影响,其安全性、适用性和耐久性随着时间的推移逐渐降低。现阶段我国存在大量不同年代的砌体结构房屋和年代久远的砌体结构古建筑群,长期遭受近海大气环境下的氯盐侵蚀,导致其力学性能和抗震能力均发生显著退化。因此,研究近海大气环境下多龄期砌体结构的抗震性能及
在托卡马克中,撕裂模是一种由平衡环向电流密度的径向梯度驱动的不稳定性,能够使磁场拓扑结构改变从而形成磁岛,显著增加了磁岛区域的径向输运。当磁岛足够大时,磁岛的相互重叠甚至会导致等离子体的大破裂。因此,理解撕裂模的物理机制对于现有和未来的托卡马克装置的稳态运行至关重要。另一方面,高能量粒子可以通过氘氚聚变和辅助加热产生,高能量粒子不仅可以影响多种磁流体不稳定性(比如撕裂模),同时会激发鱼骨模等不稳定
拓扑量子系统,包括拓扑超导体、拓扑绝缘体、节点拓扑量子系统等,展现出很多新奇的现象和属性,在量子信息理论以及特殊性能量子器件的研究中具有广泛深远的应用前景,近些年来吸引了众多科研人员的兴趣。传统的拓扑量子系统具有受到拓扑属性保护的量子态,比如一维拓扑超导体可能具有等效的Majorana费米子准粒子态,二维拓扑绝缘体具有绝缘的体态和导电的表面态等等。拓扑量子系统可以通过相应的拓扑不变量加以表征,从而
早在上世纪80年代,大地测量学家就提出研究全球高程基准统一问题,高程基准统一成为近几十年大地测量学中最活跃的领域之一。国际大地测量协会IAG(Inter-national Assiociation of Geodesy)成立专门研究的小组致力于全球高程基准统一研究。当前研究集中于利用卫星重力场模型和地面重力数据构建全球大地水准面模型,将大地水准面作为全球高程基准面,利用大地水准面统一全球高程基准,
结核分枝杆菌感染机体后主要激活CD4+T细胞和CD8+T细胞,CD4+T细胞分化为Th1型细胞,分泌IFN-γ、TNF-α、IL-2等细胞因子,激活巨噬细胞等细胞免疫应答,CD8+T细胞分化为CTL细胞直接杀伤靶细胞,发挥清除结核分枝杆菌的作用。然而耐药结核、痰菌阳性的纤维空洞型肺结核等重症结核病患者体内结核分枝杆菌长期慢性感染会导致机体免疫功能低下。我们实验室前期应用结核分枝杆菌抗原持续刺激模拟
体外构建人体仿生3D组织器官模型对于生物医学领域的研究如疾病机制探讨,药物开发,精准治疗和再生医学等具有重要意义。动物模型和传统的二维细胞培养体系难以真实反映人体器官生理及对药物或外界刺激的响应,具有一定局限性。器官芯片(Organs-on-chips)是近年来发展起来的以微流控技术为核心构建的器官生理微系统,它是与生物学、物理、化学、材料学和工程学等多种方法相结合的一门前沿交叉技术。本论文研究工