刚刚,龙虾学会画画了!阿里甩出Wan2.7生图王牌,捏脸精确到骨相
科技前沿 | 2026-04-02 10:19:41
新智元报道
【新智元导读】 龙虾终于会画图了!阿里Wan2.7-Image刚刚上线,捏脸到骨相级、首创「调色盘」、3K超长文本写满A4不崩,还能接入OpenClaw一句话出图。
养虾人狂喜! 今天,龙虾终于学会生图了。
捏脸捏到骨相级别,调色精确到HEX色号,文字渲染一口气写满一页A4纸,编辑指哪改哪,9张参考图喂进去脸都不崩。
炸不炸?先看这组。
同一段提示词,只改外貌描述,出来五张完全不同的脸——
从满脸的络腮胡、稚嫩的娃娃脸,到微胖的身材、深棕黑色的皮肤,主体保持了惊人的一致性。
左右滑动查看
同一个舞台,同一束顶光,但是五张完全不同的脸!
背后的狠角色, 是阿里4月1日刚上线的Wan2.7-Image ,一个把生图和编辑能力统一在一起的新模型, 同步支持作为Skills接入OpenClaw 。
翻译成人话:你的龙虾,现在不光能聊天、写代码、跑自动化,还能画图了。而且画得,相当能打。
「活人感」,一种微妙的真实,恰恰是AI生图最难驾驭的地方。
打开任何一个图文平台,满眼皆是同质化的「塑料AI脸」。不偏不倚的五官比例,毫无瑕疵的鸡蛋肌,以及一双空洞呆滞的眼睛。
这些被算法喂出来的「标准脸」,美得毫无破绽,却像流水线上批量生产的偶像练习生。
千人一面,毫无灵魂。
Wan2.7-Image的解法, 是把生成粒度下钻至「骨相」与「皮相」的微观层级 。一句简单的提示,便可做到从骨骼结构、眼眸深浅到五官细微处的全方位定制。
你可以精准要求生成鹅蛋脸、圆脸、方脸或长方脸。
| | |
鹅蛋脸、圆脸、方脸
这种「捏脸」还可以进一步延伸到眼部细节的微调。杏仁眼、圆眼、丹凤眼,动动嘴就能定制。
| | |
杏仁眼、丹凤眼、眯缝眼
整个人的全脸拿捏,仅凭一句话即可完成。千人千面,尽在一语之间。
这正是「活人感」的本质:不完美,但真实。
在设计师眼里,颜色就是精准的空间坐标。
一句「暖橙色调」,对于不同的AI可能产生差异悬殊的结果:有时是莫兰迪的土橙,有时是梵高向日葵的明黄,有时又会滑向秋日夕阳的深红。
这种「色彩盲盒」式的随机性,设计师根本没法交差。在严苛的品牌视觉系统面前,1%的色差即是无效产出。
由此, Wan2.7-Image在业内首创「调色盘」功能 ,将色彩控制权交还给创作者。
用户可通过HEX色号,一键提取或输入参考图的各种颜色和占比,自由调控颜色的数量和比例,自定义配色方案。
从马蒂斯浓郁的红色系、梵高明媚的黄色系,到毕加索清冷的蓝色系,都能参考生成同色系的图片。
万相网页版已经内置了完整的调色盘交互,三步搞定:
第一步,点击底部工具栏的「调色盘」按钮,弹出配色面板。系统预置了「蓝调」「热情」「马卡龙」「莫兰迪」等多种推荐配色方案,选一个直接用也行。
第二步,想自定义?
点「新增配色方案」,然后点「从图片提取配色」,上传任意参考图,系统自动提取主色和占比。
颜色数量可以用加减号增删,比例可以拖动色块边界自由调整。
| |
第三步,确认配色后回到主界面,调色盘已经挂载到工具栏上。输入场景描述,点生成,出来的图就严格遵循你定义的色彩方案。
有了这套流程,世界名画的灵魂色彩,从此触手可及。
梵高《星月夜》中,那抹热烈奔放、盘旋交织的蓝黄撞色,让Wan2.7-Image提取八种颜色,并重构于现代都市。
可以看到,在这座灯火通明的城市中,点缀的正是星月夜中的色调。
| |
又或是,将莫奈《日出·印象》中蓝灰色调与太阳爆发出的柔和橙黄,映射到另一个物理空间中。
Wan2.7-Image把莫奈的色彩DNA植入到每一个元素中,让江南水乡也有了一种印象派的滤镜。
| |
同样,还可以把一张AI艺术画的色调,一键迁移至「大裤衩」的建筑艺术构图中。
| |
在AI图像生成的「顽疾清单」上,文本渲染始终盘踞榜首。
一旦字数超过几个词,AI的表现便开始失控:字母变形、笔画断裂、汉字错位,甚至整段文字莫名消失。
Wan2.7-Image对这一顽疾发动了正面进攻。它实现了对超长文字、表格、复杂公式的印刷级渲染, 支持业内最长的3K Tokens文字输入,可以写满一页A4纸 。
积分号、求和号、ε-δ语言,一个没崩。
再来一张竖版书法卡片:
对比之下,ChatGPT和Gemini都有明显的错字。
| |
但真正让我们倒吸一口凉气的,是下面这组。
Wan2.7-Image直接生成了带有完整图表、公式、分栏排版的学术论文页面。
| |
说实话,这个场景日常用到的概率不高,背后的提示词长到离谱,塞满了论文标题、正文段落、图注、参考文献格式等海量细节。
普通用户大概率不会这么用。但这恰恰是秀肌肉的时刻。
能把这种极端长文本、多层级排版、图文混排的任务吃下来,说明Wan2.7-Image的文本理解和渲染引擎在底层就是按「印刷级」的标准做的。
日常写个菜单、出张海报,对它来说只是降维打击。
甚至是多语言文字同屏输出,也难不倒Wan2.7-Image。
AI绘图的「文盲」时代,由此终结。
生图能力再强,创作者最终还是需要编辑。而AI的编辑能力,长期以来是一块烫手的短板。
用过传统AI修图的人,或许都经历过一种绝望:改一下背景颜色,主体人物的服装也变了;稍微调整一下嘴角,整个面部结构崩塌重建。AI不理解「局部修改」的边界,把不想改的地方也改了,妥妥的「效率黑洞」。
Wan2.7-Image用「精准框」的交互方式解决了这个问题 。在指定区域内完成元素添加、对齐、移动元素或logo,框外的内容纹丝不动。
举个栗子,精准框选图中的大雁,并输入指令:将图中框选的大雁移动到虚框位置,并且姿势变成站在屋檐上。
被框选的大雁,已经落到了屋檐上,图中的其余部分都被「完美锁定」,未受任何干扰。
更惊叹的是,Wan2.7-Image智能地将大雁缩小,让其符合透视原理,完美融入远景建筑物的比例。
大雁的姿态也从「展开双翼飞翔」切换为「收起翅膀直立栖息」,整个画面过渡非常自然。
万相网页版已经内置了完整的编辑交互,操作也很直觉:
第一步,在图片生成页面,底部工具栏将模式切换为「底稿」,上传要编辑的原图。
第二步,点击已上传的图片缩略图,弹出操作菜单,选择「框选」。也可以选「更换」或「删除」,对应不同的编辑需求。
| |
第三步,在图上拖出一个矩形框,圈住你要编辑的区域(支持框选1-2个区域)。支持消除、修改、添加、移动、尺寸变换等操作,确认后回到主界面。
第四步,在输入框里写上你的编辑指令,比如「框选的位置加个薯饼」,点生成,搞定。
这种指哪打哪的「交互式编辑」,让AI终于从「不可控的艺术家」变成了「听话的执行搭档」。
多人场景一直是AI生图的重灾区。角色一多,脸就崩,风格就飘。
Wan2.7-Image支持最高9张图片作为参考源,多张参考图喂进去,人物长相、风格、光影全锁死,输出结果在视觉上高度统一。
做电商的朋友们真的有福了。只需上传一张参考图,Wan2.7-Image就能带着同一个模特在全球各地「瞬移」,不管环境怎么变,主体人物的长相、神态都稳如老狗。
上一秒身着波西米亚长裙,漫步在马尔代夫的细软沙滩,下一秒已身处巴黎街头慵懒地喝着咖啡。
从高级商务范到东京潮流街拍,再到健身房的运动风,切换得游刃有余。
左右滑动查看
不止人物。
五双完全不同的鞋子,Wan2.7-Image也能完美揉进同一张画幅,无变形、无违和。这才是电商人梦寐以求的生成器。
| | |
| |
更狠的是,Wan2.7-Image还能一口气吐出多达12张逻辑连贯图像序列。
下面这个测试中,它连续生成八张图,构成了一个完整的小故事,角色特征始终如一,几乎毫无偏差。
左右滑动查看
从「单帧」到「时序」,分镜脚本、PPT系列配图、电商模特套图、多视角建筑方案,都可以批量交付。AI生成从「逐张抽卡」跃入「序列化生产」。
实测看完了,拆底层。
Wan2.7-Image凭什么做到上面这些?五大功能的背后,每一项都指向算法架构与训练数据上的深层变革。
先看硬指标。
在人类偏好盲测中,Wan2.7-Image的文生图能力超过GPT Image 1.5和国内主流模型,在文本渲染、照片级成像和世界知识三个指标上,逼近Nano Banana Pro,可谓国内最强生图模型。
再看能力面。
Wan2.7-Image支持交互式编辑(文字编辑、空间变换、内容生成和替换),多图像生成能力覆盖时尚美容、平面设计等多领域,堪称六边形战士。
那关键问题来了:它为什么不只会生图,还更懂图?
答案藏在三层技术栈里。
第一层,数据。
超大规模的异构数据底座,不仅涵盖全域品类的视觉素材,还整合了理解类数据。模型不是只看过图,它还「读」过图。
第二层,架构。
Wan2.7-Image采用生成与理解统一的模型架构,在共享的潜在空间内完成语义映射。文字紧挨着画面,模型不需要费力去猜文字对应的画面,它本来就知道。
第三层,训练。
训练流程中引入了多模态指令(文字+图片混合输入),让模型实现了从单纯的像素拟合到底层语义认知的跨越。配合多维精细标注体系(按布局、文字、光影、拍摄角度、用途等维度标注)和分阶段训练策略,模型在长尾场景下依然稳得住。
同步上线的还有Wan2.7-Image-pro,基于更大规模数据和模型尺寸训练而成,构图更稳,语义理解更精准。追求极致效果的用户,可以直接上Pro版。
这一次,Wan2.7-Image同步支持作为Skills接入OpenClaw。
那么,具体该怎么接?
万相网页版左下角已经挂上了「龙虾」图标,简单三步一键完成接入——
第一步,在你的「龙虾」里通过对话安装Skills,直接发一句:
帮我安装Wan-skills https://github.com/Wan-Video/Wan-skills
第二步,按照提示告诉「龙虾」阿里云百炼API Key。
第三步,用对话开启「龙虾」生图体验。
接入之后,即可立刻体验Wan2.7-Image生图魔法了。
上面实测中,捏脸、调色、长文本渲染、精准编辑、多主体一致性,全部可以通过龙虾的对话界面触达。
这才是AI生图真正该有的样子:深度嵌入你已有的工作流,成为一个随叫随到的「设计师」。
回看Wan2.7-Image的五项核心能力,它做的事说到底就一件:把创作的控制权,从算法的随机性里夺回来,交还给人。
一个十人规模的短剧团队,过去最头疼的是「预生产」阶段。角色长什么样,分镜怎么画,特效预演怎么做,每一步都是时间和钱。现在,千人千面的捏脸加上组图生成,角色设定、动作参考、视觉方案可以在正式开机前全部跑通。试错成本从「天」压缩到「小时」。
一个做穿搭号的自媒体博主,日常最大的消耗不是选品,而是配图。封面图的风格要统一,OOTD的场景要多变,系列内容的视觉调性不能跑偏。现在一段精确的提示词加一个调色盘,品牌视觉的一致性就有了底。
一个中小电商商家,一件商品需要数十张素材图。传统摄影外包的成本和周期让人望而却步。多主体一致性加上组图生成,单张模特图可以裂变为覆盖不同场景、不同卖点的完整素材库,上新周期大幅缩短。
从「千篇一律」到「千人千面」,从「盲盒抽卡」到「精准微操」。
AI生图这件事,第一次真正由你说了算。
即日起,用户可在 https://tongyi.aliyun.com/wan/ 、wan.video网站和阿里云百炼体验Wan2.7-Image,千问App也即将接入。
责任编辑:i泺源
