利用未标记数据加强集成多样性 报告人:汪宜东 报告时间:2013-11-14 地点:厦门大学软件学院科研一号楼313室 将多个基本分类器集成,对训练集数据进行集成学习。众所周知,构建一个良好的具有强泛 化能力的集成分类器,基础分类器要求准确而且具有多样性。在文章中,无标签数据被利用来促 进集成学习有助于增强基础学习者的多样性。具体来说,半监督算法名为UDEED,即未标签数据 增强集成多样性。对比现有的半监督的集成方法,利用他们估计容易出错的伪标签扩大标记的数 据集,以提高分类器的精度,而UDEED一方面使分类器在有标签数据集上精度最大化,同时利用 未标签数据集来增强集成多样性。 文章利用20常规规模和5个大数据集上的大量的实验是来验证 UDEED算法,标签数量分为少量或丰富两类。实验结果表明UDEED可以有效地利用未标签数据集增 强集成学习多样性,和现在行之有效的半监督集成方法相比非常具有竞争力。 |