自然语言处理中词相关性知识无导获取和均衡分类器构建

被引量 : 33次 | 上传用户:zona418
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专家系统创始人E.A.Feigenbaum有句名言:“专家的知识是专家能力的关键”。同理,我们认为拥有完备、一致并且细腻的自然语言知识是计算语言学得以突破的关键之一。 在计算语言学领域,传统手工方法的失败和后起统计方法、模式识别方法和机器学习方法的成功反映和验证了这一客观现实。 因此在计算语言学领域,本文选择了“汉语词间相关性知识无导获取”和“均衡机器学习分类器构建”2个问题进行了深入的研究。虽然2个问题的研究内容不同,但都属自然语言知识获取(knowledge acquisition)的范畴。目的只有一个:获取完备、细腻的知识,但侧重点不同而已: [1] 汉语词间相关性知识无导获取致力于构建一个通用、细腻的,以词间距离“量”化形式描述的词语相关性基础知识库。 [2] 均衡机器学习分类器的构建是针对自然语言处理中诸多消歧问题提出的一种方法,在认同自然语言中规律知识与例外知识并存假设的基础上,从知识表示、知识获取和知识推理3个方面对它们加以区别对待和处理。 在词语相关性知识无导获取研究中,本文依托信息检索领域的向量空间模型,沿途依次解决以下问题: (a) 通过信息论中的信息增益概念确定上下文各位置信息量,以函数拟和方法确定“信息量位置函数”,并积分信息量确定上下文有效范围的边界,为进一步计算提供“量”上的指导。 (b) 在引入X-矩阵概念的基础上,改进tf.idf词语权重计算提出tf.idf.IG的上下文词语权重计算方法。 (c) 针对词间相关性知识无导获取的目标,定义了3种类型的噪音,并根据客观硬件环境给出了相应的一整套极为有效的噪音消除策略。 (d) 通过词语的2维可视化结果验证噪音消除效果,并提出了根据对其主观满意度确定主成分分析“累计方差贡献率”的策略。同时将获取得到的词语相关性知识库应用于Memory-Based Learning中属性值距离计算中,通过分类正确率检验所得知识的有效性。 自然语言处理中绝大多数问题都可以被形式化为典型的分类问题,如何根据自然语言中规律知识和例外知识各自的特点,构造均衡分类器是本文的另一个研究内容。提取的规则和Memory-Based Learning是认同推理假设极端相左,但却互补性极强的2种机器学习方法,结合这2种方
其他文献
目的探讨脾脏占位性病变的临床诊治措施,分析影像学对脾脏占位性病变的价值,总结有效治疗手段。方法对2008年9月~2012年10月我院收治的72例脾脏占位性病变患者的临床资料进行
阳明心学的“知行合~”与“心即理”密不可分,只有理解了“知行合一”,才能真正理解“心即理”。“知行合一”的“知”与“行”指向同一件事,它具有六个特征,即全神贯注、谨慎恐惧
选用N,N-二甲基甲酰胺(DMF)为溶剂溶解样品,利用气质联用(GC-MS)分析仪对原料中各个组分进行定性分析,以吩!嗪为内标物,采用内标标准曲线法进行定量,建立了毛细管柱气相色谱
指出如何更好地提升师资队伍的水平和充分发挥师资队伍的作用是当前我国研究型大学学科建设面临的重要问题,认为创新基层学术组织形式,以杰出领军人物为核心,以中青年教师为
[目的]对青海湖流域近24a的土壤保持量进行评估,揭示其时空变化规律,为定量评估青海湖流域土壤保持功能和区域土壤保持的重要性提供理论支撑。[方法]利用通用土壤流失方程(US
海洋油气资源开发过程中钻井隔水管遭受交变应力和腐蚀介质的耦合作用,其主要失效形式是腐蚀和腐蚀疲劳。前期研究表明,铝喷涂层可显著提高隔水管等海洋结构物的腐蚀疲劳性能,但
2018年是技术突破的关键一年,ICT行业涌现出众多新技术、新产品,哪些技术产品最为震撼?在2018年天翼智能生态博览会召开之际,通信世界全媒体特别推出“2018天翼展年度ICT风云榜”
期刊
ICT
近年来,铂族金属Rh纳米材料受到了广泛关注,主要是由于其自身具有一系列特殊的光、电、声、磁、热性质。正因为这些特殊性质,使得它在催化科学、药物设计、燃料电池、光学传
“慢生活”是基于快节奏的社会背景下出现的一种新的生活方式理念和消费观,时代的发展,生活方式的变革,会促发人们新的消费需求,作为和生活方式联系最为紧密的服饰生活,服装
目的了解精神分裂症患者痊愈出院后对治疗的依从性,分析依从性和对精神分裂症的复发影响和不依从的相关因素,探讨如何提高治疗依从性,降低复发。方法通过电话、门诊等形式,用自拟