【摘 要】
:
自然语言处理的很多问题都可以归结为分类问题,机器学习是解决分类问题的重要途径。本文以自然语言处理的两种典型问题——词义消歧和动态情感词分析为例,研究了机器学习方法在
论文部分内容阅读
自然语言处理的很多问题都可以归结为分类问题,机器学习是解决分类问题的重要途径。本文以自然语言处理的两种典型问题——词义消歧和动态情感词分析为例,研究了机器学习方法在处理分类问题时几个重要因素的影响:分类模型、语料和特征选择。
本文比较了几种常见的分类模型:朴素贝叶斯(NBM)、最大熵模型(MEM)和支持向量机(SVM);为了缓解有限带标语料对模型训练的影响,本文研究了包括Bootstrapping、EM和TSVM在内的几种半指导机器学习方法,引入未标数据共同训练模型,并结合实验比较了这些半指导分类方法的效果;针对特征问题,本文设计并实现了一种基于贪心思想的特征选择方法,并根据具体问题改进了该算法使之适应具体的应用场景。
本文选取了三份实验语料,对三种有指导的机器学习模型、半指导方法和特征选择方法进行了实验。着重考察和分析了半指导方法,特征选择方法以及这两类方法相结合后,对于有指导的基础机器学习模型性能的改进。
其他文献
近年来,随着城市数字化工作的稳步推进、网络地图服务的逐步发展、基于位置的信息服务的循序渐进,电子地图得到了前所未有的发展机遇,成为地图服务于社会经济的重要手段。地图注
中学物理中一些比较抽象的习题常较难求解,若能与数学图形相结合,再恰当地引入物理图象,则可变抽象为形象,突破难点、疑点,使解题过程大大简化.图象法是历年高考的热点,因而
模拟器是计算机系统体系结构研究的常用工具,是研究新型计算机系统的重要途径。未来,高性能计算机将向超大规模并行方向发展,不但节点规模进一步增加,节点内部的并行性也会进一步
高中物理由于属于理科性质的学科,学科内容较为客观,所以很多教师认为很难让学生开展自我学习,在教学上过于重视教师的主导地位,不敢放手让学生自己探索、学习.此外,高中阶段
三问之前,先说几句题外话。一位记者,晚上在家埋头写稿,媳妇大人给他端来一杯茶,往桌上一放,随即叉手言道:“没明没黑地写,谁爱看你们那些废话呢?”这位记者一愣,如梦方醒地
P2P应用在近年来变得越来越流行。但是随着其快速增长,他们也消耗了网络服务提供商大量的带宽。由于P2P网络中节点问普遍采用选取尽可能多的目的节点来为本机服务的节点选择策
高中物理教学主要是引导学生正确理解物理概念、掌握物理规律,并通过物理解题来巩固、深化所学知识以及各知识点间的相互联系,体现知识的应用性和综合性,着眼于知识的灵活运
高中物理中常常会遇到许多题目可以用发散性思维解答,这就是所谓的“一题多解”.当物理知识连成一个系统的网络之后,学生的解题方法也会根据自身对知识的掌握程度出现分歧.“
先秦优人往往以谈笑进谏,“优孟谏马”便是历史上一则非常著名的优语.优孟进谏取得了良好效果,人们大多把这种效果归因于优孟进谏的技巧.其实,还有一个重要的原因,那就是“优
随着无线传输技术的快速发展以及无线移动新产品的层出不穷,人们对随时随地访问互联网信息的需求越来越迫切。无线网状(WirelessMeshNetworks,WMN)网正是因为这种需求而产生的