银河国际科学研究院_Midjourney地位不稳？AI绘图又一黑马出现附4款产品一手实测

Midjourney地位不稳？AI绘图又一黑马出现附4款产品一手实测

栏目：科研动态发布时间：2024-08-31

　　银河官方官网没错，就是那个成立于去年8月，由谷歌AI绘画4大牛集体离职创业的项目，曾获得过一众AI大佬投资。

　　此番Ideogram还公开叫板Flux，官方自信表示其人类评估明显优于Flux Pro。

　　要知道，Flux由Stable Diffusion原班人马打造，最近正在因生成以假乱真的TED演讲“照片”而走红各大网络。

　　或许是受刺激了（doge），Midjourney竟然也转性了，在8月22日直接向所有用户推出了免费网页版。

　　1号选手：Ideogram 2.0。每天免费有10积分，1积分可以生成4张图，每天最多生成40张图；

　　一上来，为了检验这些国外AI是否理解中文提示词，咱们也来蹭一波当今顶流黑猴子的热度。

　　prompt：游戏角色，一只猴子，身披盔甲，头戴凤羽金冠，手上拿着一根金箍棒，站在一座悬崖之上。

　　相信大家一眼都被3号的大红叉给吸引了。没错，同一提示词下，只有3号Imagen 3拒绝了生成请求。

　　看到这儿，第一反应是我们的提示词是不是触发了版权保护。于是先删掉了提示词中的“游戏角色”，结果还是提醒无法生成。

　　难道是谷歌Imagen 3不支持中文？于是又随机换了一个更简单的提示词，这下倒是有图了。

　　只不过结果一整个大错误，而且换了多个中文提示词，最终都是一些毫不相关的纹路图。

　　3号落榜之后，再看其他几位，也只有1号Ideogram 2.0表现最佳。

　　2号倒还能看出国漫的影子，4号Midjourney则完全放飞自我了~（主打一个毫不相干）

　　遥想当年，Midjourney以一张天台情侣合照火爆网络；眼下，Flux更是以一组TED演讲图风靡全网……

　　一位红褐色头发的年轻男性，身着蓝绿色奶油色方格衬衫，用50mm镜头捕捉复古风格。色彩丰富，焦点清晰，带有一丝复古魅力。

　　从细节上看，2号Flux.1稍有偏差，衣服颜色多了两种，这在一水的蓝绿格子衬衫中尤为突出。

　　另外，一上来我们还发现了Imagen 3独有的一个小亮点：在生成开始前圈出关键词。

　　借着它完成的工作，我们正好可以检验几位选手对关键元素（蓝绿色方格衬衫、50mm镜头等）的还原程度。

　　可以看到，整体上几位选手表现都不错（除了2号），还原度较高且都看向了镜头。

　　而且，要不是这些都是本人亲自用AI生成的，还真无法一下子辨认与真人的区别。（汗颜）

　　话不多说，直接让几位选手制作一块精美的广告牌。请各位看官老爷自行带入甲方爸爸角色。

　　一块水平黄铜标牌，上面以时尚手写体写着’Festive Season’，周围环绕着松枝和冬青，背景是深色木材，特写镜头聚焦于金色字体。

　　注意看，2号Flux.1偷工减料了，单词“Season”少了一个字母“S”。

　　不过除了2号，其他几位还是不错滴，看来各家AI在文字渲染功能上都下功夫了。

　　所以接下来就是，萝卜青菜各有所爱，大家凭个人喜好做选择。（私心投给了Midjourney）

　　对了，1号Ideogram这次型号升级还特意拿“文字渲染”功能做宣传了，大家不妨多试试。

　　其实原理也比较简单，无非是用AI生成不同角色宣传薯条的图片，再拼接成一个视频。

　　很好，3号选手再次“摆烂了”。不过这波着实令人费解，提示词既不是中文，也没有明显违禁的地方……

　　淘汰3号后，1号选手Ideogram 2.0带货种类最为丰富，大白菜、西红柿、紫甘蓝等应有尽有。

　　u1s1，如果参考麦麦的广告风格，这一次的短暂生成确实没有达到理想效果。（希望更贴近真实一点）

　　但是，好在这几个AI工具目前都可以免费用，多来几次也不是不行，重点还是方法论。[doge]

　　一支光滑的口红管在精致的背景前闪耀，突显出浓郁的色泽和顺滑的涂抹感。以锐利的焦点和一抹微光唤起奢华感。

　　考考大家，假如你要给身边某位女性挑一只口红，你会选哪只？（死亡考验来了）

　　虽然4号Midjourney看起来灰常高级，但这个黑色可能有点小众了。（慎选）

　　除了它，接下来表现最好的是3号Imagen 3，底下丝绒布料衬托出奢华感，且最重要的是，口红质地很线号都显得有点假，“塑料感”扑面而来。

　　小结一下，整体而言4位选手表现都非常不错。中文提示词下，黑马选手Ideogram 2.0表现最好。

　　今年2月，Ideogram推出了1.0版本，短短半年时间，它再次进化上线版本。

　　成立于去年8月，创始团队中前4人都是谷歌文生图研究Imagen论文作者。

　　CEO Mohammad Norouzi，论文共同一作，他在多伦多大学计算机科学博士就读期间拿到了谷歌ML博士奖学金。

　　毕业后他加入谷歌大脑工作了7年，职位也一路升至高级研究科学家，主要研究的就是生成模型。

　　此外，他也是谷歌神经机器翻译团队的原始成员，Hinton团队自监督对比学习框架SimCLR的合著者。

　　CTO William Chan（陳俊樂），论文共同一作，他先后就读于加拿大滑铁卢大学、卡内基梅隆大学。

　　他2012年加入谷歌时先做的机器学习广告工程，后转到谷歌大脑作NLP研究。

　　联合创始人 Jonathan Ho，博士毕业于UC伯克利，曾在OpenAI工作一年，后加入谷歌。

　　联合创始人 Chitwan Saharia，论文共同一作，本科毕业于孟买理工学院，2019年加入谷歌，在谷歌主要负责领导image-to-image扩散模型的工作。

　　Jacob Lu为软件工程师，加入Ideogram之前曾在亚马逊等公司任职；Jenny Lei是软件工程实习生，加入Ideogram AI之前曾在谷歌实习。

　　可以看出，Ideogram由顶级扩散模型研究团队组成，自成立之初便获得了资本青睐。

本文由:银河国际科学研究院提供

上一篇：科研进展国际最新科研进展

下一篇：科研绘图效率全能软件：Adobe illustrator教程—液泡与叶绿体绘制

地址：广东省广州市银河国际·Galaxy(中国)官方网站
电话：400-966-85366 传真：+86-966-85366 邮箱：81kw.com