logseq/pages/Models.md at c4c92e0d53ee0afa3baf82699abd47b9bf8f0b80 - logseq - Gitea: Git with a cup of tea

lostecho/logseq

Files

lostecho fb36c16288 [logseq-plugin-git:commit] 2025-06-17T08:13:02.058Z

2025-06-17 16:13:02 +08:00

5.3 KiB

Raw Blame History

1. 主模型 (Main/Base Models): 构成图像生成的基础。
2. 微调与风格模型 (Fine-tuning & Style Models): 对主模型进行修改，以实现特定风格或角色。
3. 辅助与功能模型 (Auxiliary & Utility Models): 在流程中扮演关键的辅助角色，如改善画质或提升分辨率。
4. 控制与引导模型 (Control & Guidance Models): 为生成过程提供精确的外部控制条件。
5. 专项功能模型 (Specialized Function Models): 用于实现特殊功能，如视频生成。

类别	模型类型	作用 (Role in Process)	加载节点 (Loading Node)	存放路径 (Folder Path)	使用方法 (Usage Method)
1. 主模型	Checkpoint (检查点)<br>`.safetensors`, `.ckpt`	图像生成的基础和核心。决定了生成图像的整体风格（写实、动漫、艺术）、知识范围和基本画质。是一切的起点。	`Load Checkpoint`	`ComfyUI/models/checkpoints/`	这是任何工作流的第一个节点。选择一个模型文件，它会输出 `MODEL`、`CLIP` 和 `VAE` 三个基本组件，供后续节点使用。
2. 微调与风格	LoRA<br>`.safetensors`	轻量级风格/角色模型。在不改变大模型的前提下，向其注入特定的画风、人物特征、服装或概念。灵活高效。	`Load LoRA`	`ComfyUI/models/loras/`	将其串联在 `Load Checkpoint` 的 `MODEL` 和 `CLIP` 输出之后。它接收原始的 `MODEL` 和 `CLIP`，并输出被修改过的版本。
	LyCORIS<br>`.safetensors`	更强大的微调模型。可以看作是 LoRA 的一种进阶或变体，有时能实现更复杂的风格和细节调整。	`Load LoRA` (通常可用)<br>或专用的 LyCORIS 加载器	`ComfyUI/models/loras/`	使用方法与 LoRA 相同。一些社区开发的 LyCORIS 插件可能提供更完整的支持。
	Textual Inversion (Embedding)<br>`.pt`, `.safetensors`	概念嵌入模型。教会 AI 一个新的“单词”，通常用于定义一个特定的画风或物体。它非常小，只作用于文本编码（CLIP）部分。	无 (无需加载节点)	`ComfyUI/models/embeddings/`	将文件放入文件夹后，直接在 `CLIP Text Encode (Prompt)` 节点的提示词框中，通过 `embedding:文件名` 的语法来调用。
3. 辅助与功能	VAE (Variational Autoencoder)<br>`.safetensors`, `.pt`	图像色彩与细节解码器。负责潜空间与像素空间的转换。一个好的 VAE 能显著改善画面发灰、模糊的问题，让色彩更鲜艳。	`Load VAE`	`ComfyUI/models/vae/`	将其 `VAE` 输出连接到 `VAE Decode` 节点的 `vae` 输入端，替换掉主模型自带的 VAE。SDXL 模型通常自带优秀的 VAE，不一定需要外置。
	Upscale Model (放大模型)<br>`.pth`, `.safetensors`	提升图像分辨率。使用专门的算法（如 ESRGAN, SwinIR）对图像进行智能放大，而不是简单地拉伸像素，可以有效增加细节。	`Load Upscale Model`	`ComfyUI/models/upscale_models/`	在工作流的末端，将 `VAE Decode` 输出的 `IMAGE` 送入 `Upscale Image (using Model)` 节点进行处理。
	CLIP Vision Model<br>`.safetensors`	图像理解模型。让 AI 能够“看懂”图片内容，提取其风格、主体等信息。主要被其他高级节点（如 IP-Adapter）调用。	`Load CLIP Vision`	`ComfyUI/models/clip_vision/`	将其加载后，把 `CLIP_VISION` 输出连接到需要它的节点（如 `IPAdapter` 节点）上。
4. 控制与引导	ControlNet<br>`.safetensors`, `.pth`	精确的结构控制器。通过输入额外的引导图（如姿态骨架、深度图、建筑线条），来精确控制生成图像中物体的姿势、构图和形状。	`ControlNetLoader`	`ComfyUI/models/controlnet/`	配合预处理器节点（如 `OpenPose`, `Canny`）和 `Apply ControlNet` 节点一起使用，将控制信号注入到 `KSampler` 的条件中。
	T2I-Adapter (图文适配器)<br>`.safetensors`, `.pth`	轻量级引导模型。功能与 ControlNet 类似，但通常模型文件更小，以略有不同的方式提供风格、颜色、构图等引导。	专用的 T2I-Adapter 加载节点	`ComfyUI/models/t2i_adapter/`	使用流程与 ControlNet 类似，加载模型后通过对应的 "Apply" 节点将引导信息整合进工作流。
	IP-Adapter (图像提示适配器)<br>`.safetensors`, `.bin`	图像提示模型。让你可以用一张图片作为“视觉提示”，将它的风格、角色或构图特征迁移到新生成的图像中，无需训练。	`IPAdapter Model Loader` (自定义节点)	`ComfyUI/models/ipadapter/`	通常需要配合 `CLIP Vision` 模型一起使用，通过 `IPAdapter` 相关节点将图像信息应用到 `MODEL` 和 `CLIP` 上。
5. 专项功能	AnimateDiff Models<br>`.safetensors`	视频/动画生成模型。不是生成静态图，而是专门用于生成一段连贯的、动态的短视频。	`AnimateDiff Loader` (自定义节点)	`ComfyUI/custom_nodes/` (取决于插件)<br>或 `ComfyUI/models/animatediff/`	需要安装 AnimateDiff 插件。在工作流中加入 `AnimateDiff Loader` 来加载动作模型，它会给整个生成流程添加“时间维度”。