问题在于:大多数机器学习算法都是乐观主义者。
它们通过偏向多数类来追求高精度,完全忽略了代表性不足的群体中的细微模式。以欺诈检测为例——如果只有 0.1% 的交易是欺诈性的,模型可能会懒洋洋地将所有内容标记为“安全”,并且仍然拥有 99.9% 的准确率。与此同时,实际的欺诈行为却没有被发现,造成数百万美元的损失。但好消息是:我们并非无能为力。将SMOTE视为数据厨师的绝招——它会快速生成稀有类别的合成样本,就像复印稀缺成分来平衡食谱一样。另一方面,随机欠采样会减少过多的类别,类似于清理拥挤的房间以发现隐藏的宝藏。Tomek Links更进一步,通过手术去除混淆模型的模糊数据点。
对于更棘手的情况,成本敏感学习就像一个公平教练——对忽略罕 多米尼加共和国 手机号码见事件的模型进行更严厉的惩罚——而集成方法(如训练一组专业侦探)结合多种策略来捕捉别人错过的东西。
从医疗诊断发现罕见疾病到预测机器故障,这些技术将理论模型转化为现实世界的问题解决方案。随着自适应人工智能和更智能的合成数据生成等创新技术的出现,解决数据不平衡问题的未来看起来比以往任何时候都更加光明。
准备好深入研究了吗?让我们来探索这些工具的工作原理——以及它们如何通过一次平衡的数据集重塑行业。
了解数据不平衡及其影响
想象一下,如果你教一个只学习了教科书一章的学生,他们会在这一主题上答对,但在其他方面却一败涂地。这就是机器学习模型在输入不平衡数据时所发生的情况。大多数算法就像过于热切的学生一样,变得懒惰,只关注“多数类”(数据中的主导群体),而较少见的“少数类”则被忽略。正如研究人员指出的那样,这不仅仅是一个小问题,就像让房间里最响亮的声音淹没了其他所有人的声音,扭曲了整个系统。
这就是为什么这很重要:一个在 99% 合法交易上训练的欺诈检测模型可能会拥有 99% 的准确率……通过将所有内容标记为“非欺诈”。恭喜,您已经建立了一个世界级的欺诈检测器。这种成功的假象揭示了人工智能的一个肮脏的秘密:当您的数据不平衡时,单靠准确性是没有意义的。
頁:
[1]