docker model run

描述	运行模型，并使用提交的提示或聊天模式与其交互
用法	`docker model run MODEL [PROMPT]`

描述

运行模型时，Docker 会调用由 Model Runner 通过 Docker Desktop 托管的推理服务器 API 端点。模型会一直保留在内存中，直到请求另一个模型，或者达到预定义的非活动超时（目前为 5 分钟）。

您无需在使用主机进程或容器内部与特定模型交互之前运行 Docker model。Model Runner 会透明地按需加载请求的模型，前提是该模型已拉取并可在本地使用。

您还可以在 Docker Desktop 仪表板中选择“**模型**”选项卡中的模型时使用聊天模式。

选项	默认值	描述
`--debug`		启用调试日志记录
`--ignore-runtime-memory-check`		如果模型的估计运行时内存超出系统资源，则不阻止拉取。

docker model run ai/smollm2 "Hi"

输出

Hello! How can I assist you today?

docker model run ai/smollm2

输出

Interactive chat mode started. Type '/bye' to exit.
> Hi
Hi there! It's SmolLM, AI assistant. How can I help you today?
> /bye
Chat session ended.