首頁 » DeepSeek 的 Janus Pro:功能、DALL-E 3 比较等

DeepSeek 的 Janus Pro:功能、DALL-E 3 比较等

比较等 DeepSeek-R1的发布震动了AI行业,导致NVIDIA和美国主要AI公司的股价大幅下跌。

DeepSeek 现已推出Janus-Pro ,这是其最新的多模态模型,专为文本和图像生成而设计。与 R1 一样,Janus Pro 也是开源的,并且提供了强大的基准测试结果。简而言之,它是多模态 AI 领域 OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion 的有力竞争对手。

在这篇博客中,我将解释 Janus Pro、它是什么、多模式 AI 的含义、它的工作原理以及如何访问它。我还将在一些提示上将它与 DALL-E 3 进行比较。

什么是Janus-Pro?

Janus-Pro 是 DeepSeek 最新的多模态 AI 模型,旨在处理涉及文本和图像的任务。与原始 Janus 模型相比,它引入了多项改进,包括更好的训练策略、更大的数据集和缩放的模型大小(提供 1B 和 7B 参数版本)。

Janus Pro 与 Janus

Janus 与 Janus Pro-7b。资料来源:Janus-Pro 的发布文件。

与只专注于一种输入类型的 AI 模型不同,Janus-Pro 等多模态 AI 模型旨在理解和连接这两种模态。例如,您可以上传图片并询问有关该图片的基于比较等文本的问题 – 例如识别场景中的物体、解释图片中的文本,甚至分析其上下文。

janus pro 文本识别演示

使用 Janus-Pro 进行文本识别。来源:Janus-Pro 的发布文件。

Janus-Pro 可以根据文本提示生成高质量图像,例如根据特定说明创建详细的艺术品、产品设计或逼真的可视化效果。它还可以分析视觉输入,例如识别照片中的物体、阅读和解释图像中的文本,或回答有关图表或示意图的问题。

janus pro 文本到图像生成

使用 Janus-Pro 进行文本到图像的生成。来源:Janus-比较等Pro 的发布文件。

Janus-Pro 有两种尺寸——1B 和 7B 参数——根据您的硬件提供灵活性。

Janus-Pro 如何发挥作用?

Janus-Pro 旨在处理文本和图像的理解和生成,它通过对其前身进行一些巧妙的改进来实现这一目标。让我以一种更容易理解的方式解释一下它的关键组件。

janus-pro 功能

解耦视觉编码

Janus-Pro 的一大突出特点是它不使用单一系统来处理解释和创建视觉效果。相反,它将这两个过程分开(解耦视觉编码)。

例如,当你上传一张图片并询问相 手机号码数据 关问题时,Janus-Pro 会使用专门的系统“读取”图片并找出重点。另一方面,当你要求它根据文本描述创建图片时,它会切换到另一个专注于生成视觉效果的系统。这种分离使模型能够更好地完成这两项任务——避免当一个系统被迫处理所有事情时发生的妥协。

改进培训流程

Janus-Pro 的训练分为三个阶段,每个阶段旨在提高其能力:

学习视觉基础知识:该模型首先在ImageNet等 因此将协同工作纳入团 数据集上进行训练,重点是识别对象、文本和视觉模式。此阶段在 Janus-Pro 中得到扩展,使模型有更多时间来模拟像素依赖关系并有效处理视觉数据。
连接视觉效果和文本:在此阶段,Janus-Pro 通过对高质量、描述性的文本到图像数据集进行训练来整合文本和视觉效果。与早期版本不同,Janus-Pro 跳过了低效的方法,并使用密集提示来获得更好的结果。
最后的微调:此阶段调整训练数据(多模式、纯文本和文本转图像)的平衡,从 7:3:10 变为 5:1:4。

更大的数据和模型扩展

Janus-Pro 通过等量使用真实数据和合成数据 命中資料庫 来扩展其功能。这种组合不仅可以确保更高质量的结果,还可以提高图像生成等任务的稳定性。

Janus-Pro 与达尔-E 3

在本节中,我将在多模态理解和文本到图像生成方面比较 Janus-Pro-7B 和DALL-E 3。此比较旨在让您实际了解这些模型的实际作用,但它不能替代系统比较等基准测量的深度。

多模态理解
我上传了下面的图片并询问了Janus-Pro-7B和DALL-E 3:

“用一句话来概括,这张图片的主要内容是什么?”

janus-pro 基准测试

来源:Janus-Pro 的 GitHub 页面。

以下是回复:

Janus-Pro:这张图片的主要亮点是,Janus 模型在多模式理解任务中实现了最高的平均性能,同时在文本到图像生成的指令遵循基准上也表现出很高的准确性。

DALL-E 3:Janus-Pro 模型(尤其是 Janus-Pro-7B)在理解和指令遵循基准方面均优于其他多模式模型,在文本和图像任务中展现出强大的能力。

虽然两种模型都很好地概括了图表,但 Janus-Pro 错误地提到了“Janus 模型”,未能将其与 Janus-Pro 区分开来。然而,DALL-E 3 明确指出了“Janus-Pro 模型,特别是 Janus-Pro-7B”,显示出更好的上下文理解。

这只是一个孤立的例子,因此我们不能得出任何普遍的结论。

文本到图像生成

我尝试了这个提示,因为它可能在实践中有实际用途:

“现代办公空间设计,配有协作工作站、私人会议舱和自然光,以 3D 风格呈现”

DALL-E 3 生成了下面的图像,该图像符合提示中的所有元素:现代办公空间、协作工作站、私人会议舱、自然光和 3D 风格渲染。但是,仔细观察后,您会注意到不少瑕疵,例如:

左上角玻璃板上的反射看起来略微扭曲,尤其是圆形灯具。
一些桌面物品(灯、纸张和电脑)的边缘模糊或不自然,表明可能存在 AI 合并错误。
办公椅,特别是中间的那把,看起来有点变形,特别是椅腿以及椅腿与地板的相互作用(扶手垫的位置也不正确)。
dall-e 3 文本到图像生成示例

我在Hugging Face上使用 Janus-Pro-7B 。该模型比较等生成了五张图像,它们看起来都很糟糕:

Janus-Pro 生成了五张图像
通过查看第一张图片,我们可以毫不费力地发现一些主要的文物:

天花板呈现出不自然的扭曲效果,重复且未对准的照明设备看起来拉伸或漂浮。
有些桌子形状奇怪,角度不一致,重叠不自然。有些椅子看起来部分与地板融为一体。
右侧的展台结构呈现出不自然的、融化的外观,里面的椅子看起来变形且不连贯。
您将能够使用相同的提示和以下参数和种子在 Hugging Face 上重现此结果:

janus-pro-7b 的拥抱面空间

尽管尝试了不同的参数和种子,我还是无法用 Janus-Pro-7B 产生更好的输出。同样,这只是一个例子,并没有提供足够的证据来对任何一个模型做出广泛的结论。

Janus-Pro 基准测试

Janus-Pro 已通过多项基准测试,以衡量其在多模态理解和文本转图像生成方面的表现。结果显示,它比前代产品 Janus 有所改进,并跻身同类产品中表现最佳的模型之列。

janus-pro 基准测试

来源:Janus-Pro 的 GitHub 页面。

上图左侧的图表显示了 Janus-Pro 在四个多模态理解基准上的表现——DeepSeek 团队对 POPE、MME-Perception、GQA 和 MMMU 的准确率进比较等行了平均。关键点在于,Janus-Pro-7B 的表现优于其规模较小的 Janus-Pro-1B,以及其他多模态模型,如 LLaVA-v1.5-7B 和 VILA-U。

右图将 Janus-Pro-7B 与文本到图像生成的指令比较等遵循基准测试中的其他领先模型进行了比较,特别是GenEval和DPG-Bench :

如何访问 Janus-Pro

您可以使用几种不同的方法尝试 Janus-Pro,无需复杂的设置。

Hugging Face 的在线演示
测试 Janus-Pro 的最快方法是通过其Hugging Face Spaces 演示,您可以在其中输入提示并直接在浏览器中生成文本或图像。无需安装或设置。

带有 Gradio 的本地 GUI
如果您更喜欢具有用户友好界面的本地设置,DeepSeek 提供了基于 Gradio 的演示。这可让您通过机器上的基于 Web 的 GUI 与 Janus-Pro 进行交互。要使用它,请按照 Janus官方 GitHub 存储库上的说明进行操作。

返回頂端