当前位置: 网站首页 技术文章 正文

MidJourney吃香吗?AI画画新秀杀到,还带4款神器实战测评

来源:互联网 发布时间:2024-09-23 12:03:15

AI领域再度掀起图像生成的技术热潮。

MidJourney吃香吗?AI画画新秀杀到,还带4款神器实战测评

一系列突破性进展纷至沓来:

8月21日,Ideogram正式发布2.0版本,声称其文本渲染能力显著提升。

没错,正是那个在去年8月由四位谷歌AI绘画领域的专家集体离职创立的项目,曾受到多位AI界重量级人物的投资。

此次,Ideogram更是直接挑战Flux,并在其官方声明中自信地表示,在人类评估方面明显优于Flux Pro。

值得一提的是,Flux由Stable Diffusion的原班人马打造,最近因为生成逼真的TED演讲“照片”而在网络上迅速蹿红。

与此同时,一周前,谷歌也正式发布了Imagen 3,据官方评估,其表现超越了DALL-E 3、Midjourney v6、Stable Diffusion 3等一系列图像生成模型。

或许是因为竞争的压力(玩笑之意),Midjourney也在8月22日向所有用户推出了免费的网页版服务。

一场精彩的较量即将上演!

既然各家都声称自己的技术独步天下,我们就将它们放到同一个擂台上,来一场面对面的较量。

谁是最强的绘图AI?

首先介绍我们的四位参赛者(均使用网页版):

1号选手:Ideogram 2.0。每天提供10积分免费使用,每积分可以生成4张图片,最多每日生成40张;2号选手:Flux.1。黑森林官方在Hugging Chat提供了免费试用版(选择FLUX.1 Schnell版本);3号选手:Imagen 3。在Image FX上可以无限次免费使用;4号选手:Midjourney。免费试用期内总共可以生成25张图片;

现在,正式进入比赛环节。

黑猴子全军覆没

首先,为了测试这些国外AI能否理解中文提示词,我们决定以近期热门的“黑猴子”为主题进行测试。

不出所料,意外发生了……

大家的目光肯定第一时间被3号Imagen 3的大红叉吸引住了。是的,同样的提示词下,只有3号Imagen 3拒绝了生成请求。

初看之下,我们猜测可能是提示词触发了版权保护机制。于是尝试删去了提示词中的“游戏角色”,然而依然无法生成。

难道是谷歌Imagen 3不支持中文?于是我们又尝试了更为简单的中文提示词,这次得到了回应,但却是一系列毫无关联的图案。

看来,谷歌Imagen 3确实对中文提示词不太友好。

在3号Imagen 3出局之后,剩下的选手中,1号Ideogram 2.0的表现最为出色。

2号Flux.1尚能捕捉到一些国漫的元素,而4号Midjourney则似乎完全脱离了主题。

尽管如此,Ideogram 2.0精准地抓住了所有关键元素,虽然并非完全符合预期(期待黑神话的呈现),但在提示词的还原度上确实无可挑剔。

真人还是AI?难以分辨

接下来,进入各位选手的强项——人像生成。

回想起过去,Midjourney凭借一张天台情侣的照片在网络上广受欢迎;而现在,Flux更是以其TED演讲图在互联网上大放异彩……

那么,谁才是真正的强者呢?答案即将揭晓。

先来看看2号和4号的表现,显然,Midjourney占据了优势!

从细节来看,2号Flux.1稍微有些偏差,衣服的颜色多出了两种,在一色的蓝绿格子衬衫中格外显眼。

另外,我们还发现了一个Imagen 3独有的特色:在生成前会自动识别并圈出关键词。

借此机会,我们可以检测各家选手对关键词(如蓝绿色方格衬衫、50mm镜头等)的还原程度。

整体而言,除2号外,各家选手表现都很不错,还原度高,且都面向镜头。

如果不是亲自用AI生成的,很难立即分辨出与真人之间的差异。(汗颜)

最后悄悄说一句,4号选手Midjourney的颜值最高。

老大难问题:图片中的文字

成功欺骗了所有人之后,让我们给AI制造一些困难——

为图片添加文字。

这一直是个棘手的问题,也成为检验AI图像生成水平的重要标准之一。

不多废话,直接让各位选手制作一块精美的广告牌。请各位观众代入甲方的角色。

乍一看,似乎都还不错,高度还原了提示词的内容?

但是,一旦以甲方的挑剔眼光审视,2号选手Flux.1的问题就暴露出来了。

请注意,2号Flux.1在单词“Season”中漏掉了一个字母“S”。

不过,除了2号选手之外,其他几家表现还是不错的,看来各家AI都在文字渲染功能上下足了功夫。

顺便提一句,1号Ideogram这次升级特别强调了“文字渲染”功能,大家不妨多尝试一番。

MidJourney吃香吗?AI画画新秀杀到,还带4款神器实战测评

参考麦当劳,打造AI广告

最近,麦当劳邀请了11位AI美女为薯条代言,引发了广泛关注。

其实,原理非常简单,就是利用AI生成不同角色宣传薯条的图片,然后拼接成视频。

结果出乎意料的好,仅在推特平台上,相关视频就获得了接近千万的浏览量。

掌握了这个秘诀后,我们也开始行动起来,身为中国人,利用AI助力农业推广当然必不可少。

很好,3号选手再次“躺平”。不过这次的确让人费解,提示词既不是中文,也没有明显的违规之处……

剔除3号选手后,1号选手Ideogram 2.0的农产品种类最为丰富,大白菜、西红柿、紫甘蓝等一应俱全。

而且它是唯一一家打出文字招牌宣传有机食品的,看得出十分努力~

另外,仔细观察还能发现,只有1号选手尽力模拟真人形象,而2号和4号则完全走了二次元路线。

说实话,如果参照麦当劳的广告风格,这次的快速生成并没有达到预期的效果。(希望更贴近真实一些)

但是,好在这些AI工具目前都可以免费使用,多试几次也未尝不可,重要的是方法论。

别急着走,其实还有一个更稳妥的赚钱方法——

利用AI轻松制作棚拍商业宣传海报,省下聘请摄影师、租赁场地和后期制作的成本,岂不美哉。

假设你要为身边的某位女士挑选一支口红,你会选择哪一款?(这是一个艰巨的考验)

嘿嘿,有没有人选择了4号呢?

虽然4号Midjourney看起来非常高端,但这支黑色可能有点过于小众了。(慎重选择)

相比之下,3号Imagen 3的表现最好,底下的丝绒布料衬托出口红的奢华感,而且最重要的是,口红的质感非常真实。

相比之下,1号和2号的口红看起来有些假,“塑料感”扑面而来。

因此,这一轮整体来看,3号选手获胜。

总结一下,四位选手的整体表现都非常优秀。在中文提示词的情况下,黑马选手Ideogram 2.0的表现最佳。

谁是Ideogram?

今年2月,Ideogram推出了1.0版本,仅仅半年的时间,它再次升级,上线了2.0版本。

实际上,Ideogram与谷歌有着千丝万缕的联系。

成立于去年8月,创始团队中有四位是谷歌文生图研究Imagen论文的主要作者。

CEO Mohammad Norouzi是该论文的第一作者之一,他在多伦多大学攻读计算机科学博士学位期间获得了谷歌ML博士奖学金。

毕业后,他在谷歌大脑工作了七年,职位晋升至高级研究科学家,主要研究生成模型。

此外,他还是谷歌神经机器翻译团队的创始成员之一,以及Hinton团队自监督对比学习框架SimCLR的合著者。

CTO William Chan(陳俊樂),同样是论文的第一作者之一,他曾就读于加拿大滑铁卢大学和卡内基梅隆大学。

2012年加入谷歌后,他先从事机器学习广告工程,随后转向谷歌大脑进行自然语言处理研究。

联合创始人Jonathan Ho,博士毕业于加州大学伯克利分校,曾在OpenAI工作一年,之后加入谷歌。

他是Imagen论文的核心贡献者之一,同时也是去噪扩散模型奠基之作《Denoising Diffusion Probabilistic Models》的第一作者,该论文的合著者Pieter Abbeel也是Ideogram AI的投资人之一。

联合创始人Chitwan Saharia,同样是论文的第一作者之一,本科毕业于印度孟买理工学院,2019年加入谷歌,主要负责image-to-image扩散模型的研究。

创始团队中的另外三位成员,Shayaan Abdullah曾是Twitter的机器学习工程师,去年4月离职后加入Ideogram;Jacob Lu为软件工程师,加入Ideogram之前曾在亚马逊等公司任职;Jenny Lei是软件工程实习生,加入Ideogram之前曾在谷歌实习。

可以看出,Ideogram是由顶级扩散模型研究团队组成的,自成立以来便备受资本市场的关注。

Ideogram的种子轮融资由a16z和Index Ventures领投,金额为1650万美元(当时约合1.2亿人民币)。

个人投资者中不乏知名人士,如Andrej Karpathy、强化学习专家Pieter Abbeel,以及GitHub联合创始人Tom Preston-Werner等。

此外,今年2月有多方消息称Ideogram完成了新一轮融资。

据报道,成功筹集了8000万美元(约合57亿人民币)的A轮融资,领投方为Andreessen Horowitz,其他参与投资者包括Index Ventures、Redpoint Ventures、Pear VC和SV Angel。

显然,资金充足且技术实力雄厚的Ideogram无疑是AI图像生成领域的一匹黑马。

竞争,还将继续。

Ideogram 2.0链接:https://ideogram.ai/t/explore

Midjourney链接:https://www.midjourney.com/home

Flux链接:https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell

MidJourney吃香吗?AI画画新秀杀到,还带4款神器实战测评

Imagen3链接:https://aitestkitchen.withgoogle.com/tools/image-fx

相关教程