北京大学推出中国画审美评估系统破解人工智能本土化难题

问题—— 随着大模型在图文理解、内容生成等领域广泛应用，其“看懂”艺术作品的能力日益受到关注。

中国画讲求笔墨、章法，更重意境与气韵，既包含审美判断，也牵涉历史常识与文化语境。

现实中，不少模型在解读中国画时容易出现套用外来审美范式、误读典故背景、忽略笔墨技法等问题，导致“能描述、不理解”“会说词、不对题”。

如何客观评估模型的中式审美水平，并据此指引优化方向，成为亟待解决的基础性课题。

原因—— 业内现有评测体系多建立在西方艺术史与美学框架之上，强调透视、光影、写实等指标，适用于部分绘画传统，却难以完整覆盖中国古代艺术中“以形写神”“气韵生动”“诗书画印互证”等核心逻辑。

与此同时，中国画的鉴赏与研究强调长期积累与经验传承，审美判断常带有“只可意会”的特征，难以直接转译为统一的量化标准。

评估缺位使得模型优化缺乏清晰“靶心”，也容易让应用端在文化理解、内容输出上出现偏差与失真。

影响—— 北京大学发布的“智镜”平台尝试以更贴近中国画知识结构的方式破解这一难题。

平台以“中国画考试系统”为核心，通过“模型答题、人类阅卷”的流程，力求把模型的解读能力落到可核验的证据链上：一方面，平台汇聚超1.8万张中国古代书画艺术图像，并为每件作品配套创作背景、风格流派、文化寓意、评论文献等信息，形成相对系统的“试题”数据库；另一方面，受邀专家在系统中对模型解读进行多维度评判，从作品信息准确性、构图分析、笔墨技法到意境阐释等环节逐项核查，归纳模型在审美范式、历史背景、文化常识等方面的典型错误。

此举有助于推动模型评估从“主观印象”走向“可复核评价”，为跨学科研究与产业应用提供共同语言。

对策—— 要让评估真正服务于改进与治理，关键在于标准体系建设与反馈闭环形成。

其一，指标设计需兼顾传统美学的核心概念与可操作性，既要覆盖笔墨、章法等相对可描述要素，也要为意境、神采等较抽象维度建立更清晰的判定依据，避免“只剩术语”。

其二，阅卷机制应强调权威性与一致性，通过专家群体的交叉评议、案例库沉淀与争议题复核，减少单一观点带来的偏差。

其三，平台输出应可反哺模型训练与对齐，通过结构化错误类型、典型样本与解释路径，为本土化调优提供具体抓手，推动模型在文化知识、艺术史理解与表达方式上同步提升。

其四，面向公众开放后，应设置必要的引导与分层参与机制，在扩大社会参与的同时确保评估质量，形成“公众参与—专家校核—标准迭代”的良性循环。

前景—— 据介绍，“智镜”平台现阶段面向受邀专家开放，今年5月计划向公众开放参与阅卷。

随着开放范围扩大，平台有望成为连接学术界、产业界与社会公众的公共评测基础设施：既能为模型在文化艺术领域的能力边界提供更清晰刻度，也可在教育普及层面促进公众对中国画知识体系的理解与讨论。

更重要的是，这类以本土文化为基准的评测探索，或将推动形成兼具国际可对话性与中国文化解释力的标准体系，为数字时代的文化传承与创新提供新的工具路径。

未来若能在更多艺术门类、更多典籍与文化场景中拓展题库与评估维度，并与学术研究、博物馆资源、公共文化服务形成联动，其示范效应值得期待。

当科技与人文的对话深入到审美维度，"智镜"系统的探索不仅是一次技术攻关，更是对文化主体性的坚守。

这项研究启示我们，在人工智能全球化发展的浪潮中，只有扎根本土文化土壤建立自主标准，才能真正实现科技赋能与文化传承的双向奔赴。

未来，随着更多传统艺术门类评估体系的建立，中国有望为世界智能技术发展贡献独特的价值坐标系。

北京大学推出中国画审美评估系统 破解人工智能本土化难题

北京大学推出中国画审美评估系统破解人工智能本土化难题