Midjourney：AIGC现象级应用如何助力内容创作者

Midjourney 是一款 AI 软件，也是一个垂类 SaaS 产品，引用 Point Nine Capital 的创始合伙人 Christoph Janz 的观点，垂直 SaaS 产品的成功离不开以下基本原则：对所在行业的客户有更深入的了解；以最好的方式解决他们的具体问题；专门向目标的群体进行营销/销售；随着时间的推移增加更多的功能层，增加 ACV（平均客户价值）和粘性。我们在 Midjourney 的产品中看到了以上特点，也在其未来发展规划中看到了对增加 ACV 和用户粘性的努力。

惊艳的产品效果

Midjourney 产品定位具体，“了解用户到底需要什么”，商业可行性强，能在更大程度上提高创意设计的效率。正如 Discord 中的用户评价：“ Midjourney 超过其竞争对手是因为它生成的图片都是可以商业化的。” 具体而言，Midjourney 的 prompt 简短，具有科幻色彩。相比之下，DALL-E2 更偏写实风格，Stable Diffusion 无风格偏向，但需要更长的 prompt 和更多的尝试来获得好的图片效果。

Mobile App UIs, created by midjourney

Prompt 包括图片内容描述、艺术风格描述、艺术媒介&手段、光线描述、图片细节描述等等，使用不同的 prompt 可以实现图片的精细化调节。利用 Midjourney 获得美术竞赛数字艺术类别一等奖的 Théâtre D’opéra Spatial （太空歌剧院），创作者 Jason Allen 经过了 80 个小时的创作、大约 900 次尝试才完成了这个作品。

但这也反映了目前的图片生成无法控制，也无法修改。对于用户是一个黑盒，一方面不知道输入什么样的 prompt 会突然产生好的效果，另一方面即使每次都输入同样的词，每次出来的东西也不一样。但产品如果要商用化，每一个步骤都应该是有迹可循的。

对于 Midjourney 独特的艺术风格，Holz 表示，Midjourney 在优化模型的过程中是期待制作美好的图片，激发人类的想象力，而不是复刻现实。Midjourney 不会成为假照片的制造机器。

同时，Midjourney 在质量和速度之间做了“黄金区域”的选择。最初有 20 分钟生成高画质图片和 15 秒能生成低画质的图片两种算法。经过测试发现，相较于质量，人们更关心速度，但太快也不会带来更多体验上的加成。所以最终选择了 60 秒的版本，比 10 秒生成的质量更高，速度也在人们舒适的范围内。

以 Discord 为载体的社区交互设计

Discord 为 Midjourney 的启动提供了绝佳的社交体验平台，成功将其带入了大众市场。一方面 Discord bot 降低了用户使用门槛；另一方面，图片创作是一个在讨论中不断迭代的过程，欣赏其他用户的作品有也助于激发灵感。Holz 在访谈中也提到，不直接做一个 iOS App 的原因是因为人们喜欢艺术共创。Midjourney 迅速成为 Discord 上用户最多的服务器，拥有了超 1000 万名社区成员。

Midjourney 近期扩大了产品的可用范围，任何人都可以将 Midjourney bot 引入自己的 Discord 服务器，这将进一步扩大 Midjourney 的使用容量。

通过数据飞轮和快速迭代，建立护城河

迭代速度对于文生图软件非常重要。SaaS 订阅制的产品模式使其盈利能力取决于图片效果及成本。而底层技术的飞速进步，必须不断地迭代模型以紧跟行业发展。其实数据质量及数据标注质量的重要性远远超过模型本身。Midjourney 以 PLG 的模式获得庞大用户量，形成数据飞轮，能够根据用户需求针对性地训练模型并快速迭代产品，长期来看更有利于建立竞争壁垒。

Midjourney 自发布以来迭代速度非常快。2022 年 3 月 V1 发布时仍参考了很多的开源模型；4 月、7 月和 11 月分别发布了V2、V3 和 V4，迭代出了自己的模型优势。V4 补充了生物、地点等信息；增强了对细节的识别能力及多物体/多人物的场景塑造能力。总之，每次迭代都是产品功能的飞跃。

Midjourney 也在扩展地理版图。目前已经登录中国市场，使用微信内测群的方式提供服务。用户在内测群中艾特 Bot，并输入关键词，就可以生成 AI 图片。

逐渐深入设计工作流

Midjourney 替代了 Google Images、Shutterstock、Getty Images、Pinterest、Unsplash 等传统图库平台，用户不再需要花费数小时搜索他人的作品激发灵感，而是直接生成，据称可以将一个月的工作量降低至一星期。

ToB 端，Midjourney 目前还主要在设计工作流初期。因为自定义能力有限，无法调整样式；也无法与其他平台集成，要生成满意的图片需要反复的尝试；所以只能用于灵感激发和提高工作效率，对于工作流的渗透并不深入。近期发布的 ControlNet 使得 Diffusion 模型更好地受控生成图片，提高了图片生成的速度和精准度，并可以调整图片细节，将会进一步深入工作流，改变专业设计行业的生产模式。Midjourney 若要进一步深入工作流需尽快集成 ControlNet。

ToC 端，会极大的简化工作流，比如代替设计师或外包商完成公众号等自媒体团队的图片设计等等。

不可忽视的是，Midjourney 在发展过程中还面临着潜在风险，如版权问题。David Holz 承认 Midjourney 使用的公开数据集包含了数百万张未经作者同意的作品；2023 年 1 月，三位艺术家对 Stability AI、Midjourney 以及 DeviantArt 提起了侵犯版权的诉讼。AI 生成作品中还存在着种族歧视及成年内容。虽然 Midjourney 进行了关键词限制，但仍无法完全避免相关内容出现。

Prompt 生态

社区用户对于 Midjourney 的能力探索热情极高，目前已经出现了 prompt 的学习交流网站如 promptoMANIA，社群中也流传着很多 prompt 数据集的公开 Google 文档及文章教程。

Style groups in midjourney — Image by Lars Nielsen

由于用不同的 prompt 获得的图片效果差异很大，甚至出现了 prompt 交易平台。PromptBase就是一个包含Midjourney、DALL-E2、GPT-3 等不同平台 prompt 的交易平台，产品定价为 1.99 – 5.99 美元不等，平台抽佣 20%。目前为止，PromptBase 已有 1 万多名用户，最受欢迎的内容为 Logo、网站、服装等商业化设计场景，能够卖出几百到几千次。

Prompt 交易市场之所以能存在，一方面是因为人们表达能力的不同；另一方面是模型内部逻辑的原因，一些看似不合常理的词语组合却能获得意想不到的效果。OpenAI 创始人Sam Altman在采访中表示，未来的 AI 系统不会因为增补特定词就产生截然不同的输出，而是能更好地理解自然语言。所以未来，该平台的价值会被表达能力更强的人捕获。

06. 团队背景

Midjourney 正式团队成员十分精简，共 11 人。除了 CEO 之外，有 8 位研究与工程师，2 位财务与法务。除此之外，还有 4 位编外顾问，以及 60 位兼职 Discord 运营。

CEO David Holz 高中时便尝试创意领域的创业，大学主修数学物理学，在攻读流体力学博士的同时为 NASA 和 Max Planck 工作。之后创立了 Leap Motion，获得来自 a16z、Founders Fund、Intel Capital 和 JP Morgan 的超 1.2 亿美元投资。Leap Motion 的核心技术是手部追踪技术，想要成为 Metaverse 中的“鼠标和键盘”，但因为 VR&AR 一直难以突破瓶颈，所以“鼠标和键盘”自然也缺乏应用场景。

虽然 Holz 离开了 Leap Motion，但从未放弃 Metaverse 的蓝图，他创立了 Midjourney，或许也期待成为 Metaverse 中的生产力和 “大脑”。Midjourney 团队的多个核心成员来自 Leap Motion，如 CFO Nadia Ali 和高级研发工程师 Johnathon Selstad。团队成员及顾问拥有 AI 技术及产品创业的复合背景。这使得 Midjourney 不仅擅长模型优化，也能够理解用户，打造优秀的产品。

David Holz 认为 AI 不应该被限制，而是人类应该去适应。他将 AI 比作水，既危险，又是文明的驱动力。懂得如何与水一起生活和工作的人类，将有能力在水中游泳、做船、筑坝发电，从而更好的生活。同时，他认为文生图的核心并不是艺术或深度伪造（deepfakes），而是人类想象力的引擎。正是团队的思维方式使得 Midjourney 的风格充满了科幻色彩，也使其选择了 Discord，以最开放的方式面向用户。

在 2022 年 8 月的采访中，Holz 表示 Midjourney 目前不以财务回报为动机，也没有成为上市公司的计划。只是期待未来十年能够做对个人和世界有意义的事情，并且从中享受乐趣。

07. 竞争格局

竞争对手

Midjourney 主要的竞争对手为以下几家使用了 Diffusion 模型的文生图软件公司：

科技大厂也在文生图领域积极布局，但速度较慢，目前仅仅发布了理论模型。Apple 若未来将 Stable Diffusion 嵌入 Iphone 中，可能会对行业格局产生较大影响。

Midjourney vs. Stable Diffusion

Midjourney 最有力的竞争对手是 Stability.AI，与 Midjourney 的闭源不同，其模型 Stable Diffusion 因开源模式受到了广泛关注。

Stable Diffusion 于 2022 年 8 月推出，以开源底层代码的形式在 HuggingFace/Github 公开发布。“将 AIGC 交到数十亿人手中，实现技术民主化”，用户可以在其代码的基础上运行或修改，制作自己的应用程序，向终端用户提供服务。作为稀缺的开源模型，同时有着良好的性能，公测后就受到了广泛的关注和好评，积累了大量用户。截止 2022 年 10 月，Stable Diffusion 已经有超过 20 万开发者下载和获得授权，各渠道累计日活用户超过 1000 万。团队开发的付费在线平台 DreamStudio 目前获得了超过150 万用户，生成超过1.7 亿图片。

Stable Diffusion 的开源优势在于能够吸引大量的开发者，最大程度的把模型用起来。开源社区会齐心协力地完善模型文档，共同推进 prompt engineering，解决技术难题。这使得代码的迭代速度非常快，优化效率远远高于闭源系统，使得文生图行业快速成长和普及。同时社区成员会创建新的 UI，通过扩展现有的功能创造新的用例，因此 Stable Diffusion 模型上长出了繁荣的应用。缺点在于商业化不够直接，可能为别人“做了嫁衣”。

同时，Midjourney 与 Stable Diffusion 因使用的数据集及模型微调方式不同，在产品层面存在较大差异。

• 产品定位上，Midjourney 是给创意设计群体开发的灵感激发及效率工具。

而 Stable Diffusion 更为开放，在风格变化的多样性上具有优势，但获得想要的图片效果需要更长的 prompt 和更多的尝试，同时在特定领域都不如该领域的专业化产品。

• 商业化维度，对比 Midjourney 的闭源与 Stable Diffusion 的开源，Midjourney 商业化层面更为占优。

因为模型闭源，并通过庞大的用户量积累了独有的数据集，可以根据用户需求不断地针对性训练模型，长期来看更有利于建立竞争壁垒。在与 Stable Diffusion 的竞争中，因为其模型的开源，Midjourney 可以随时集成其模型优势。

• 用户获取层面，Midjourney 最早开放了 Openbeta 版本，短时间获得大量用户。

但 Stable Diffusion 的商业化版本 DreamStudio 需要等待 Wait list，而开源模型的本地部署有较高的门槛。Midjourney 获得大量用户后，养成了用户使用习惯，且在开启付费订阅后就进一步加强了用户粘性。

本文来自投稿，不代表创意星球立场，如若转载，请注明出处：https://crstai.com/post/207/

Midjourney：AIGC现象级应用如何助力内容创作者

惊艳的产品效果

以 Discord 为载体的社区交互设计

通过数据飞轮和快速迭代，建立护城河

逐渐深入设计工作流

Prompt 生态

06. 团队背景

07. 竞争格局

竞争对手

Midjourney vs. Stable Diffusion

联系我们

+1(740)-679-2888

Midjourney：AIGC现象级应用如何助力内容创作者

惊艳的产品效果

以 Discord 为载体的社区交互设计

通过数据飞轮和快速迭代，建立护城河

逐渐深入设计工作流

Prompt 生态

06. 团队背景

07. 竞争格局

竞争对手

Midjourney vs. Stable Diffusion

相关推荐

最火AI画图应用Midjourney不再免费：花钱才能避免泛滥

DALL-E 3的AI出图教程，比肩Midjourney

Leonardo.Ai 一款功能强大免费 AI 绘图，随心所欲创作

联系我们

+1(740)-679-2888