维吾尔文无监督自动切分及无监督特征选择*

来源 :模式识别与人工智能 | 被引量 : 0次 | 上传用户:z284769
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法dme-TS和一种无监督特征选择方法UMRMR-UFS. dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量( dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合. UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准( UMRMR)来评价每一个特征的重要性,并将最重要的特征依次移入到特征子集中.实验结果表明dme-TS能有效控制原始特征集的规模,提高特征项本身的质量,用UMRMR-UFS的输出来表征文本时,学习算法也表现出其最高的性能.
其他文献
HY-2 satellite is the first satellite for dynamic environmental parameters measurement of China,which was launched on 16th August 2011.A scanning microwave radi
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
在液化天然气(LNG)管道上安装大弯曲半径的弯头,有时会出现空间有限而无法安装的问题.针对该问题,对LNG管道内流场进行数值模拟,先用Gambit软件进行结构性网格划分,再利用Flu
不同类型的新媒体具有不同的特点,社交类型的新媒体更契合教学过程中的使用需求.我们选择了社交类型的新媒体代表——微信公众平台进行了互动教学模式的探索,实现了班级管理,
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
A scanning microwave radiometer(RM)was launched on August 16,2011,on board HY-2 satellite.The six-month long global sea surface wind speeds observed by the HY-2
刺激部位与心电生理效应间关系的临床研究昆明医学院第一附属医院心内科(650032)黄新平,任国钧,陈兆銮,周兰清,梁立权,阚瑞媛,唐安丽ENGLSHABSTRACTSOFORIGNALARTICLESClinicstudiesontherelatio... Department of Cardiology, First Affiliated Hosp
In order to determine the phytoplankton community composition, the modification and optimizing of the CHEMical TAXonomy(CHEMTAX) running was carried out through
本组冠心病在常规内科治疗基础上,随机分组分成单纯药物组和加用体外反搏组(ECP组)进行临床对比观察.经五年随访结果ECP组心绞痛发作从140例(100%)减少至84例(60.2%),心电图
本文对10年间收住的1587例肺心病患者,对死亡的121例(7.62%)进行回顾性统计分析。其中男性占81.8%,女性占18.2%,两者有显著差异。统计资料表示:昆明地区虽年温差不大,但死亡月份仍集中于12月至2月,死亡病程在10年以