基于半监督学习的维吾尔语情感分析研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:hj12141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断普及,使得我们的生活与之息息相关。在微博等实时性交流工具的广泛应用下,互联网上的自由言论呈爆炸性的增长。如果这些言论中的负面信息大范围传播,将会对社会有很大的影响。为了解决这一问题,情感分析的研究可以避免这些不必要的现象发生。  大语种的情感分析研究相对来说比较多,但是一些少数民族语言的情感分析研究还很少。就目前的维吾尔语情感分析来说存在以下几个难点:一、维吾尔语语料库的不平衡性导致标注语料在分类器中的效果不佳,需要加强情感语料的平衡性;二、基于机器学习的维吾尔语情感分析还不是很成熟,有许多未知的问题有待于发掘。本文针对维吾尔语情感分析的研究,开展了以下几个方面的研究:  首先,本文使用主动学习策略筛选需要标注的语料构建SVM分类器,这些策略包括分类不确定性、聚类代表性和样本差异性。其次使用层次k-means聚类对余下大量未标注语料进行无监督学习,其结果可以作为半监督学习的辅助语料。最后,针对语料的正负数量不平衡导致分类器性能严重降低的问题,本文结合有监督学习和无监督学习,提出了半监督学习的方法,较好的解决了不平衡语料下的维吾尔语情感分类。  实验表明,加入主动学习策略的SVM分类器通过训练较少语料就能获得不错的分类效果。同时平衡语料下的半监督学习相对于传统有监督学习具有更好的效果。它既能减少人工标注的工作量,也提高了情感分类的准确率。
其他文献
几十年前IT技术的出现给信息的传播方式和人与人之间、国家之间甚至整个世界的交流带来了很多变化。如今,随着密码分析方面新技术的激增,信息安全是包治百病的灵丹妙药。  
资金密集型企业对企业资产管理的状况,直接关系到企业在市场上的核心竞争力。煤矿企业作为典型的资产密集型企业,其矿用设备占到企业固定资产的60%~80%。本课题以国内某大型煤矿
随着投票活动日益频繁以及活动规模不断扩大,世界各国学者们都在积极探索和研究安全的投票方案。量子通信和量子计算机的发展为投票研究领域带来了新的挑战和机遇。量子纠缠性
随着计算机硬件水平的飞速发展,人们对于电脑游戏画面逼真度的要求越来越高。为了增加场景的逼真度,各种自然现象被加入到游戏场景中,比如:雾、雨、雪等等。虽然现在的游戏软
近年来,随着互联网的迅速普及,整个社会进入了一个信息爆炸的大数据时代。新疆是一个有着多个民族聚居的地区,在这里多种语言被广泛使用。随着新疆地区经济和文化的迅速发展,
近年来,随着我国气象现代化建设事业的迅猛发展,各种先进的气象探测设备诸如自动站、气象雷达、气象卫星等相继投入使用,为气象应用和研究积累了丰富的数据资源。但由于气象
地形与人类的生产、生活息息相关,自古以来就是人类社会赖以生存的基础,早期人们运用符号将地面上的各种信息表示在平面上形成地图。但随着社会的发展,二维平面地图的表达方式已
搜索引擎在一定程度上解决了信息快速检索的问题,但采用的搜索算法不同,信息检索的效率以及精度也会不同。元搜索引擎则综合了各搜索引擎的优点,通过对各搜索引擎的调度,来获
传感器网格是近年来新兴的研究领域,它是由无线传感器网络和网格集成在一起构成的分布式系统,实现了无线传感器网络和网格优势互补。无线传感器网络可以利用网格强大的计算能
如何快捷高效地搜索到P2P网络中的资源已成为实现网络系统的最为关键的问题之一,同时这也是用户最为关心的问题之一。在无结构P2P网络的所有资源搜索算法中,洪泛法是一种最简单