docker model run
| 描述 | 运行模型,并使用提交的提示或聊天模式与其交互 |
|---|---|
| 用法 | docker model run MODEL [PROMPT] |
描述
运行模型时,Docker 会调用由 Model Runner 通过 Docker Desktop 托管的推理服务器 API 端点。模型会一直保留在内存中,直到请求另一个模型,或者达到预定义的非活动超时(目前为 5 分钟)。
您无需在使用主机进程或容器内部与特定模型交互之前运行 Docker model。Model Runner 会透明地按需加载请求的模型,前提是该模型已拉取并可在本地使用。
您还可以在 Docker Desktop 仪表板中选择“**模型**”选项卡中的模型时使用聊天模式。
选项
| 选项 | 默认值 | 描述 |
|---|---|---|
--debug | 启用调试日志记录 | |
--ignore-runtime-memory-check | 如果模型的估计运行时内存超出系统资源,则不阻止拉取。 |
示例
一次性提示
docker model run ai/smollm2 "Hi"
输出
Hello! How can I assist you today?
交互式聊天
docker model run ai/smollm2
输出
Interactive chat mode started. Type '/bye' to exit.
> Hi
Hi there! It's SmolLM, AI assistant. How can I help you today?
> /bye
Chat session ended.