面向跨语言文本挖掘的集成学习关键问题研究

被引量 : 2次 | 上传用户:wzllh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和全球信息化的发展,互联网上的信息资源类型和数量日益丰富,全球各个国家之间的信息共享也日益增多。来自学术领域、商业领域或是政治领域的国际交流也逐渐频繁,所使用的语言也是越来越具有多样化和不平衡性。语言的障碍局限了人们对信息的有效获取,同时影响了多语言信息价值的充分发挥。因此针对跨语言信息的有效学习已成为一种迫切的需求。为了更有效地进行跨语言学习,跨语言文本挖掘也进入到机器学习的研究领域。针对跨语言文本数据的特点,本文将每种语言看作是一个视图,每个视图都有其各自的特征空间,但视图之间可能共享一些类标信息,即不同语言的文档可能归属于相同的类别。本文研究点在于,利用不同视图之间的关系,期望其他视图信息能帮助目标视图的学习。本文引入分层抽样方法,从不同视图中抽取特征并形成特征子集,使每个特征子集能覆盖所有视图的特征空间。集成学习是机器学习领域中一个热门研究方向,具有良好的学习效果,因此,本文在处理跨语言文本数据时,采用集成学习的方法来提高跨语言文本挖掘的效果。在集成学习思想的启发下,在每个特征子集上构造一个对应的基学习器,然后将多个基学习器集成起来获得更好的学习效果。本文提出了两种新的方法来进行跨语言文本挖掘:一是提出了基于特征分层抽样的随机森林(SS-RF)算法,用来进行跨语言文本分类学习;二是提出了基于特征分层抽样的跨语言集成聚类(SSCE-CLC)算法,用来实现跨语言文本聚类学习。最后,在实际的跨语言文本数据集上进行实验。实验结果表明,无论是在分类任务还是在聚类任务上,本文提出的方法在学习效果上均有较大的提高。
其他文献
目的分析比较来源于南京地区部分社区健康成年人鼻咽部与住院患者分离的肺炎克雷伯菌(KPN)耐药性、携带整合子的特征及基因盒种类。方法于医院体检中心采集健康体检者的鼻咽拭
随着互联网的高速发展,人们的生活越来越依赖于网络,人们最基本的衣食住行都已经与网络相关联,因此提供网上购物服务的电子商务系统在当今社会扮演的角色也越来越重要,并已经逐渐
以美国SR-72飞行器为中心,从多个角度对美国高超声速平台进行梳理和研究,重点对美国高超武器发展路线图和关键技术进步脉络进行了探讨。认为美国目前按照其前期制定的路线图
为了更准确预测股价,本文结合灰色系统理论、马尔可夫链理论,建立了灰色马尔可夫预测模型,并将加权的思想融入其中,进一步改进了灰色马尔可夫预测模型,并做了实证分析。实证
<正>接触线和承力索是电气化铁路接触网中最重要的材料之一,并且需求量大,因此,接触线和承力索的选材成为业界人士关注的重点。目前,电气化铁路接触线和承力索用的铜合金种类
随着我国民航业的快速发展,空管正逐渐成为我国航空发展的支撑和保障。目前,我国民用航空运输飞行总量呈快速发展趋势,空管保障任务逐年加重,加强和转变空管管理模式既是满足
作为世界上储量最丰富的低碳烷烃,甲烷是许多工业过程的原料。由于甲烷的高稳定性的结构,人们常采用催化燃烧的方式对其进行利用,而甲烷催化燃烧反应是一个非常复杂的过程,其
利用岩芯观察、铸体薄片及荧光薄片鉴定,结合激光共聚焦显微镜、扫描电镜、X射线衍射、恒速压汞等分析测试手段,分析了准噶尔盆地吉木萨尔凹陷二叠系芦草沟组致密油储层成岩
【目的】探讨清热解毒凉血方联合蒙脱石散对感染性腹泻患儿相关因子白介素8(IL-8)、白介素10(IL-10)、单核细胞核因子(NF-kB)表达的影响。【方法】随机选门诊及病房的感染性
侵犯生活安宁利益的纠纷逐年呈递增趋势,但我国并没有针对该种利益保护的权利。这种制度上设计的不足,导致了司法实践中难解之题层出不穷,因此,极有必要对生活安宁权的制度构