原本,小雷以为今年下半年AI圈子的热闹,也就是那样了。
闭源这边,由Gemini 3 Pro驱动的Nano-Banana Pro,几乎改变了大家对于平面设计的认知;开源这边,Flux 2.0的突然开源,也让普通人能够自行部署的图像生成效果大大提升,只要优化做得好,人人都能跑出像模像样的图。
那时候同事还跟我打赌,说这两款大模型的风潮,最起码能领跑个半年。
结果没想到,打脸来得这么快。
就在这两天,阿里的通义千问团队突然甩出了一张王炸——Z-image,上线即登顶开源社区热门榜第一位。

(图源:Hugging Face)
这名字听着挺硬核,但真正吓人的是它的定位:一款60亿参数(6B)的开源图像生成模型。
这消息一出来,我和同事都在群里炸锅了。要知道,在现在的生图领域,6B这个参数量,基本就是个弟弟。隔壁那些动不动几十B甚至上百B的大模型,光是权重文件下载下来都能把硬盘塞满。
阿里这是要干嘛?拿个“弟弟”来跟一群肌肉猛男打擂台?
带着这种好奇,小雷第一时间去把Z-image给拖了下来,还特意找来了两个当红炸子鸡——字节的豆包和最近红得发紫的Nano-Banana Pro,看看这仨的差距到底在哪?
千问Z-image体积小,部署门槛超低
先别急着看图,咱们得先聊聊这个Z-image到底是个什么来头,以及如果你想玩,得准备点啥。
按照官方介绍,Z-Image(中文名“造相”)是阿里巴巴通义实验室研发并开源的高效图像生成基础模型,定位为“轻量且高性能”的AI图像解决方案,对标参数量20B以上的闭源旗舰模型。
而这款产品本身,参数量只有6B。
在AI界,参数量大概可以理解为模型的“脑容量”。一般来说,脑容量越大,懂的知识越多,画出来的细节越丰富,而Nano-Banana Pro之所以文生图的效果极为出色,很大一部分原因就在于谷歌训练出来的极高参数量。
但代价就是,你得有个好显卡伺候着。
以最近开源的Flux 2为例,32B的参数量,你不掏个24GB显存的3090/4090,基本连启动这一关都过不去。

(图源:Flux 2)
但Z-image这个6B就很灵性了。
小雷看了一下官方文档,它的硬件门槛简直低得让人感动。哪怕你是好几年前的 RTX 3060,或者是随便整一张显存6GB的消费级主流显卡,配合上现在成熟的量化技术,也能跑得飞起。
这就意味着,你不用为了玩个AI画图,还得专门去配台主机。你手边那台用来打LOL的游戏本,甚至是一些高性能的轻薄本,都能变成你的创意工坊。
要把这个东西跑起来,其实很简单。
讲究一点的,你可以去Hugging Face下载模型,搭配上tonyhub这类简洁前端和一条工具流就能用。
不太讲究的,只要下载ComfyUI最新版,或者是升级一下本地版,就直接可以使用了,都不需要安装第三方节点。工作流已经内置了,只需要打开模板,点击Z-image-Turbo即可,接下来按照官方提示下载、放置模型就OK了。
