说起机器学习,里头有两大类模型,一个是生成式,一个是判别式。虽然它们都很厉害,但看问题的角度大不一样。咱们先说说判别式模型,它其实更像个效率极高的法官,不咋管事情的来龙去脉,只要看到输入就能马上给出判断。这种模型的套路很直接,就是画一条线把不同类别的样本隔开。比如逻辑回归,直接在线性组合上搞个概率值;再比如支持向量机(SVM),就是要找到把两类样本夹在最窄街道中间的超平面。 这种模型的好处是分类准确率高,处理图像、文本这类监督学习任务时常常能跑出好成绩,而且训练起来速度快。不过它也有个大缺点,就是“创造力”不够,没法生成没见过的样本。要是遇到输入信息缺失的情况,它就容易傻眼。 再来看看生成式模型,这玩意儿更像个侦探兼编剧,不仅要破案(分类),还要把整个犯罪现场复盘一遍,弄明白数据是怎么冒出来的。它会把特征和标签一块儿记在脑子里。当它做分类时,会用贝叶斯公式先算出每个类别下出现当前样本的概率,再乘以先验概率,最后挑个概率最大的当答案。 这种模型的优势在于能凭空捏造出样本,像 GAN 能生成超逼真的图片,GPT 能写从没见过的文章。它还能补全残缺的数据,甚至能找出异常点。不过它训练起来麻烦得很,对计算力要求高。单纯搞分类的话,准确率往往没判别式强。 所以说没有绝对的好坏之分,得看场合用。要是搞图像或文本分类这种正经事,判别式模型大概率更稳当;要是想做数据增强、异常检测或者补全残缺图像这种活儿,生成式模型更有一手。 最有意思的是把两者结合起来用。比如说先用判别式模型做个粗分类打基础,再用生成式模型去细化补全、过滤掉异常数据,最后再用生成模型来给数据做增强。这样做既快又准,还能持续创造新价值。 机器学习的魅力就在于此——没有绝对的好坏对错,只有适不适合你手里的活儿。