docker model run

描述运行模型,并使用提交的提示或聊天模式与其交互
用法docker model run MODEL [PROMPT]

描述

运行模型时,Docker 会调用由 Model Runner 通过 Docker Desktop 托管的推理服务器 API 端点。模型会一直保留在内存中,直到请求另一个模型,或者达到预定义的非活动超时(目前为 5 分钟)。

您无需在使用主机进程或容器内部与特定模型交互之前运行 Docker model。Model Runner 会透明地按需加载请求的模型,前提是该模型已拉取并可在本地使用。

您还可以在 Docker Desktop 仪表板中选择“**模型**”选项卡中的模型时使用聊天模式。

选项

选项默认值描述
--debug启用调试日志记录
--ignore-runtime-memory-check如果模型的估计运行时内存超出系统资源,则不阻止拉取。

示例

一次性提示

docker model run ai/smollm2 "Hi"

输出

Hello! How can I assist you today?

交互式聊天

docker model run ai/smollm2

输出

Interactive chat mode started. Type '/bye' to exit.
> Hi
Hi there! It's SmolLM, AI assistant. How can I help you today?
> /bye
Chat session ended.
© . This site is unofficial and not affiliated with Kubernetes or Docker Inc.