AI 能力

TongFlow 的转换跑在一个小且具名的后端模型集合上——不是”上千个模型”的空话。这是实际清单、每个模型用在哪里、怎么配置访问。

这些模型在 Modal Worker 容器里执行。你设好 MODAL_TOKEN_ID 和 MODAL_TOKEN_SECRET，运行时通过 Modal 调用它们：

模型	用途	节点
Z-Image	文 → 图	`image-gen-text`、`image-gen`
FLUX.2 Klein 9B	多图融合、图像编辑	`image-fusion`、`image-edit`
LTX-2	文/图 → 视频、说话头像	`text-gen-video`、`image-gen-video`、`image-image-gen-video`、`audio-image-gen-video`
SeedVR2	图像和视频超分辨率	`image-upscale`、`video-upscale`
Gemma 4	多模态文本理解（图/视频）	`image-describe`、`video-describe`、`video-gen-text`
Qwen3	语音识别和 TTS	`transcribe`、`transcribe-timestamp`、`text-gen-speech-preset`、`text-gen-speech-clone`、`text-gen-speech-instruct`、`convert_voice`
ACE-Step	文 → 音乐	`gen-music`

动画 / 角色替换 / 动作迁移（wan-animate-mix、video-image-move-animal、video-image-gen-video-mix），TongFlow 用 WAN-Animate 变体——具体 slot 接线见 ABI。

本地媒体管线

有些操作不需要模型——只是媒体工具。这些跑在 Modal Worker 上，但”本地”意义上没有调任何学习过的模型：

FFmpeg —— 转码、合成、解复用、抽帧（merge-video-audio、separate-video-audio、extract-audio、get-first-frame、get-last-frame）
场景检测 —— 用于 split-video 的镜头边界检测
去字幕 / 去水印 —— 由专门 Worker 处理（subtitle_remove、remove_watermark）

文本生成（gen-text、combine-text 分组）通过四家 LLM 服务商之一路由。你通过环境变量选择：

服务商	环境变量	备注
OpenRouter	`OPENROUTER_API_KEY`	`gen-text` 的默认。有免费路由层。可选 `OPENROUTER_FREE_MODEL` 钉一个具体路由
Google Gemini	`GEMINI_API_KEY` 或 `GOOGLE_API_KEY`	节点 model slot 设为 Gemini 变体时使用。也驱动一些多模态处理器
OpenAI	`OPENAI_API_KEY`	节点 model slot 设为 OpenAI 时使用。默认 chat 模型是 `gpt-4o-mini`（用 `OPENAI_CHAT_MODEL` 覆盖）
DeepSeek	`DEEPSEEK_API_KEY`	只有少数特定代码路径使用（如批量文本分组）。不在主 `gen-text` 下拉里

只配置你打算用的服务商就够了。至少配一个——没有任何 LLM key 时工作室拒绝运行文本生成转换。

以 image-gen-text（“文 → 图用 Z-Image”）节点为例：

画布把节点的输入（上游文本节点的输出）交给工作流导出器
导出器调用 Next.js 任务 API：POST /api/task/create，参数 {feature: "image-gen-text", pluginId, prompt: {text}, nodeId}
服务端把对 Z-Image worker 的 Modal 调用入队，传入提示词
Worker 生成图像，返回 base64；服务端后处理为存储文件引用（file_key），落到 data/uploads/
画布上的图像节点更新结果

任何转换调用都是这个模式——只是 slot 名和输入形状不同。

想接入新模型（自己的 LoRA、其他放大器、开源 TTS），见 tongflow 仓库的 docs/feature-registry.md。流程：