问题—— 随着大模型在图文理解、内容生成等领域广泛应用,其“看懂”艺术作品的能力日益受到关注。
中国画讲求笔墨、章法,更重意境与气韵,既包含审美判断,也牵涉历史常识与文化语境。
现实中,不少模型在解读中国画时容易出现套用外来审美范式、误读典故背景、忽略笔墨技法等问题,导致“能描述、不理解”“会说词、不对题”。
如何客观评估模型的中式审美水平,并据此指引优化方向,成为亟待解决的基础性课题。
原因—— 业内现有评测体系多建立在西方艺术史与美学框架之上,强调透视、光影、写实等指标,适用于部分绘画传统,却难以完整覆盖中国古代艺术中“以形写神”“气韵生动”“诗书画印互证”等核心逻辑。
与此同时,中国画的鉴赏与研究强调长期积累与经验传承,审美判断常带有“只可意会”的特征,难以直接转译为统一的量化标准。
评估缺位使得模型优化缺乏清晰“靶心”,也容易让应用端在文化理解、内容输出上出现偏差与失真。
影响—— 北京大学发布的“智镜”平台尝试以更贴近中国画知识结构的方式破解这一难题。
平台以“中国画考试系统”为核心,通过“模型答题、人类阅卷”的流程,力求把模型的解读能力落到可核验的证据链上:一方面,平台汇聚超1.8万张中国古代书画艺术图像,并为每件作品配套创作背景、风格流派、文化寓意、评论文献等信息,形成相对系统的“试题”数据库;另一方面,受邀专家在系统中对模型解读进行多维度评判,从作品信息准确性、构图分析、笔墨技法到意境阐释等环节逐项核查,归纳模型在审美范式、历史背景、文化常识等方面的典型错误。
此举有助于推动模型评估从“主观印象”走向“可复核评价”,为跨学科研究与产业应用提供共同语言。
对策—— 要让评估真正服务于改进与治理,关键在于标准体系建设与反馈闭环形成。
其一,指标设计需兼顾传统美学的核心概念与可操作性,既要覆盖笔墨、章法等相对可描述要素,也要为意境、神采等较抽象维度建立更清晰的判定依据,避免“只剩术语”。
其二,阅卷机制应强调权威性与一致性,通过专家群体的交叉评议、案例库沉淀与争议题复核,减少单一观点带来的偏差。
其三,平台输出应可反哺模型训练与对齐,通过结构化错误类型、典型样本与解释路径,为本土化调优提供具体抓手,推动模型在文化知识、艺术史理解与表达方式上同步提升。
其四,面向公众开放后,应设置必要的引导与分层参与机制,在扩大社会参与的同时确保评估质量,形成“公众参与—专家校核—标准迭代”的良性循环。
前景—— 据介绍,“智镜”平台现阶段面向受邀专家开放,今年5月计划向公众开放参与阅卷。
随着开放范围扩大,平台有望成为连接学术界、产业界与社会公众的公共评测基础设施:既能为模型在文化艺术领域的能力边界提供更清晰刻度,也可在教育普及层面促进公众对中国画知识体系的理解与讨论。
更重要的是,这类以本土文化为基准的评测探索,或将推动形成兼具国际可对话性与中国文化解释力的标准体系,为数字时代的文化传承与创新提供新的工具路径。
未来若能在更多艺术门类、更多典籍与文化场景中拓展题库与评估维度,并与学术研究、博物馆资源、公共文化服务形成联动,其示范效应值得期待。
当科技与人文的对话深入到审美维度,"智镜"系统的探索不仅是一次技术攻关,更是对文化主体性的坚守。
这项研究启示我们,在人工智能全球化发展的浪潮中,只有扎根本土文化土壤建立自主标准,才能真正实现科技赋能与文化传承的双向奔赴。
未来,随着更多传统艺术门类评估体系的建立,中国有望为世界智能技术发展贡献独特的价值坐标系。