本地部署并运行 AI 大语言模型详解
目录
本文介绍如何配合 Ollama 部署阿里云的千问 Qwen 模型, 适用于 Windows 和 Mac, 最近几年出的 PC 主流配置都能基本上能玩, 使用笔电运行随时随地可用, 部署难度都不大。
写在前面 #
首先, 本地大模型最大的优势就是不用将聊天数据上传给其他服务器。
目前主流的大语言模型本地部署的工具有两种:
LM Studio 或者 Ollama
由于我的 Mac 还在使用 Monterey 这个旧款系统, LM Studio 没办法正常使用。所以折腾 Ollama, 较新的系统也可直接上手 LM Studio. 目前我用的比较顺手的就是 qwen 了, 会这一个其他的就都会了, 像最近热度比较高的 DeepseekR1 也可以。
下载安装 Ollama #
从 Ollama 的官方网站 https://ollama.com/download 下载适用于 Windows 的安装包。
Windows 和 macOS 都装起来没什么难度, 按照正常其他软件的装法。
正常装完后 Windows 托盘和 Mac 的菜单栏就会显示 Ollama 这只可爱的羊驼图标了。右键可以退出。
包管理器安装 #
如果你喜欢, 也可以使用 Scoop 或者 Homebrew 进行安装:
scoop install extras/ollama-full
brew install ollama
获取模型 #
在 Ollama 官网的搜索框, 可以直接搜索你想安装的模型。
这里解释下, 这里以搜索 Qwen 2.5-Coder:7b
模型为例, Coder
代表着擅长写代码, Math
代表着擅长写回答数学问题, 不同后缀表示该模型在特定领域进行了优化或微调;
后面多少 B
决定的参数规模, 意为 Billion, 数字越大的回答效果越好, 但也要考虑电脑性能, 我目前这台 M1 内存 16GB, 可以流畅跑 7B 大小的模型, 可以从小的开始试。
例如我想使用 qwen2.5, 搜索页搜索qwen, 选择qwen2.5, 默认下载的是 7b
的 tag, 也可以手动选择, 然后点击 拷贝按钮 拷贝对应的运行命令粘贴到终端回车执行
ollama run qwen2.5:7b
即可直接使用
这条命令的意思是拉取完模型后直接运行
如果你只想下载模型不运行, 可以使用 pull
代替 run
, 也就是拉取的意思
ollama pull qwen2.5:7b
开始对话 #
使用终端 #
其实直接输入刚刚 run
的那条命令, 即可以直接在终端窗口里进行会话
使用组合键 Ctrl(control)键 + D键
可以退出当前会话。
不用终端 #
使用终端多少会不太方便, 你也可以使用类似 AnythingLLM 这种程序进行使用, 配合向量数据库, 也更加强大。
配置环境变量允许跨域 (CORS) #
不管是什么连接 Ollama, 通常需要配置环境变量
-
在 macOS 上, 终端里分别输入以下两条命令回车:
launchctl setenv OLLAMA_ORIGINS "*" launchctl setenv OLLAMA_HOST "0.0.0.0"
-
在 Windows 上, 终端里分别输入以下两条命令回车:
setx OLLAMA_ORIGINS "*" setx OLLAMA_HOST "0.0.0.0"
使用其他 UI #
网页 #
这里我模仿 ChatGPT 写了一个网页, 打开即用。
访问地址为
如果 CORS 没有问题, 对话框的底部应该出现刚刚拉取的模型列表, 接下来就像ChatGPT 网页一样使用了
所有聊天数据不会回传, 可以进行会话的多版本切换, 使用现代浏览器的技术: 本地存储 LocalStorage 和本地数据库 IndexedDB 进行存储记忆, 后续有空我将会上传完整的可离线的 PWA 版本或其他形式, 我会将其上传我的 GitHub.
AnythingLLM #
这是一个客户端, 这里只介绍如何连接, 首次打开可以跳过
- 进入后左下角的扳手, Customization > Display Language 的下拉选择 Chinese 即可切换为中文
- 然后在
LLM 首选项
里LLM 提供商
选择Ollama
,Ollama Model
选择你想使用的模型 - 最后返回即可
其他问题 #
如何打开终端 #
-
Windows 右键 Windows 徽标, 即可找到
-
Mac 启动台找
Terminal
或者 Spotlight 或者搜索终端