科技文本分类问题的研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:AABBCCPANJIANHUA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类问题作为机器学习的一个重要问题,其研究一直受到关注.然而,作为一类特殊的文本,科技文本的分类问题却没有得到足够的关注;与此同时,科技文本分类问题的需求却与日俱增.针对这一现实需求,该文以环境科学类科技文本为例,对科技文本的分类问题进行了深入研究.论文的主要内容包括:以环境科学类科技文献为例,建立了科技文本的样本库和字典库.其中包括的文本样本均来自于真实的科技文献.分别从三个不同的角度对科技文本分类问题进行了研究工作,其中:将科技文本分类问题看作一个多分类问题来解决,在学习过程中使用了一种全局与局部统一的半监督学习算法,并针对科技文本的分类特点对算法提出了改进.将科技文本分类问题作为一个两类问题来解决,针对科技文本的特点首次提出了一种层次结构的文本分类模型.结果显示,该模型能够稳定并有效地提高分类的精度,将科技文本分类问题作为一个One-Class问题来解决,首次提出了一种将局部线性与One-Class相结合的文本分类算法,该算法利用局部线性的思想寻找文本样本的内在支撑流形,利用One-Class的思想确定正负样本的分界面.与标准SVM算法和One-Class问题的SVM算法相比,该方法具有分类精度高、参数估计简便、正负样本分类精度可控制、计算量低等优点,该算法为解决科技文献的分类问题提供了一条有效的途径.
其他文献
科学技术的发展以及人类对资源的迫切需求使人们逐渐意识到开发利用海洋资源的重要性。随着人类对海洋探索和开发的深入,无人水下航行器(Unmanned Underwater Vehicle,UUV)自
合成孔径雷达(Synthetic Aperture Radar,SAR)技术始于20世纪50年代初,作为一种主动式遥感方式,相比于光学传感器,它能够全于时、全于候获取高分辨率遥感雷达图像.通过对同一
电话是最普及的话音通信工具,是各种先进语音技术最大的潜在应用领域。语音识别是基于电话平台的语音应用的一项核心技术。大词汇量连续语音识别技术(LVCSR)在最近十几年取得
开关磁阻起动/发电机系统是一种新型机电能量转换装置,具有结构简单坚固、成本低、高容错运行能力、低速高转矩能力、高能量密度和高温运行能力等突出优点。开关磁阻起动/发电机
随着试验机技术的进步,近年来国内外电子液压万能试验机发展了三种不同控制方式:电液伺服阀控制、采用具有速度控制器的压力阀控制和宽流量范围的比例阀控制。电液伺服控制技术
近年来随着多媒体技术和互联网技术的发展,图像的资源不断扩大,如何更有效地存储和检索这些图像资源给当前广大信息领域的科学研究工作者提出了新的要求.基于内容的图像检索(
本文以“某型牵引高炮武器系统”的研制开发为工程背景,为提高其中目标坐标测定仪的实时性能,研究并探讨了目标坐标测定仪的软硬件改良设计。通过基于嵌入式实时操作系统(RTOS)
我国是世界上少数几个以煤炭为主要能源结构的国家之一,利用燃煤发电是煤炭能转化利用的最有效方法。随着我国国民经济的飞速发展,人民生活水平逐步提高,我国电能在终端能源中的
骨发育成熟度(骨龄)自动评判技术的出现得益于现代图像处理技术和模式识别技术的发展.骨龄指标在预防医学、临床医学和体育科学等领域得到广泛的应用,并且日益受到关注.由于
该文通过考察医院信息系统的现状,提出了医院信息系统的设计方案.该文的主要内容如下:首先探讨了分布式系统的相关技术和理论,介绍了C/S、B/S模式的工作方式及特点,比较了两