机器学习的魅力就在于此——没有绝对的好坏对错，只有适不适合你手里的活儿

说起机器学习，里头有两大类模型，一个是生成式，一个是判别式。虽然它们都很厉害，但看问题的角度大不一样。咱们先说说判别式模型，它其实更像个效率极高的法官，不咋管事情的来龙去脉，只要看到输入就能马上给出判断。这种模型的套路很直接，就是画一条线把不同类别的样本隔开。比如逻辑回归，直接在线性组合上搞个概率值；再比如支持向量机（SVM），就是要找到把两类样本夹在最窄街道中间的超平面。这种模型的好处是分类准确率高，处理图像、文本这类监督学习任务时常常能跑出好成绩，而且训练起来速度快。不过它也有个大缺点，就是“创造力”不够，没法生成没见过的样本。要是遇到输入信息缺失的情况，它就容易傻眼。再来看看生成式模型，这玩意儿更像个侦探兼编剧，不仅要破案（分类），还要把整个犯罪现场复盘一遍，弄明白数据是怎么冒出来的。它会把特征和标签一块儿记在脑子里。当它做分类时，会用贝叶斯公式先算出每个类别下出现当前样本的概率，再乘以先验概率，最后挑个概率最大的当答案。这种模型的优势在于能凭空捏造出样本，像 GAN 能生成超逼真的图片，GPT 能写从没见过的文章。它还能补全残缺的数据，甚至能找出异常点。不过它训练起来麻烦得很，对计算力要求高。单纯搞分类的话，准确率往往没判别式强。所以说没有绝对的好坏之分，得看场合用。要是搞图像或文本分类这种正经事，判别式模型大概率更稳当；要是想做数据增强、异常检测或者补全残缺图像这种活儿，生成式模型更有一手。最有意思的是把两者结合起来用。比如说先用判别式模型做个粗分类打基础，再用生成式模型去细化补全、过滤掉异常数据，最后再用生成模型来给数据做增强。这样做既快又准，还能持续创造新价值。机器学习的魅力就在于此——没有绝对的好坏对错，只有适不适合你手里的活儿。