在手机上运行离线 AI:Gemma 4 安装与使用指南
在手机上运行离线 AI:Gemma 4 安装与使用指南
小柯在手机上运行离线 AI:Gemma 4 安装与使用指南
前言
在手机上拥有一个离线 AI:本教程帮助你在 Android 手机上离线运行 Gemma 4(E2B / E4B 变体),实现隐私、本地可用、免费且有趣的 AI 体验。
动机
- 隐私保护:所有对话和推理在本地进行,不上传云端。
- 离线可用:无网络或弱网环境下依然可用。
- 免费:通过开源工具与免费模型变体,避免云计费。
- 趣味性:探索在移动设备上运行大型模型的可能性和玩法。
目标
清晰介绍如何在手机上运行 Gemma 4 模型(E2B 或 E4B),包含三种部署方法(图形化应用、Termux+Ollama、Termux+llama.cpp)、测试与性能优化建议。
成果预览
成功运行效果示例(文本描述):打开客户端或 Termux,启动模型后发送“介绍一下你自己”,模型能在离线环境下返回连贯的自我介绍(通常首字响应在 1~10 秒,依设备与方法而异)。
截图占位:请将实际成功界面截图放在本教程对应位置以便展示(建议放入
docs/images/并在此处引用)。成功运行效果示例(文本描述):打开客户端或 Termux,启动模型后发送“介绍一下你自己”,模型能在离线环境下返回连贯的自我介绍(通常首字响应在 1~10 秒,依设备与方法而异)。
成功运行截图(性能测试):请将下列两张截图复制到仓库
source/img/gemma4/,并分别命名为perf-1.jpg与perf-2.jpg,文档会引用它们:
第一章:准备篇 - 知己知彼
硬件与系统要求
建议基于模型与运行方式给出最低与推荐配置:
E2B(轻量级)
- 最低:4 GB RAM,Android 11+,至少 6 GB 可用存储用于模型与缓存。
- 推荐:6–8 GB RAM,现代 CPU,支持 Vulkan(若使用 GPU 加速)。
E4B(性能更高)
- 最低:8 GB RAM,Android 11+,至少 8–12 GB 可用存储。
- 推荐:12–16 GB RAM 或以上(更好的多层 GPU offload),现代 Vulkan 驱动支持。
提示:真实机型说明 — 真我 NEO7 Turbo(联发科 天玑 9400e,最高 16 GB LPDDR5X)已远超推荐配置,可流畅运行 E4B 模型并获得良好体验。
模型选择与对比
下面表格比较 E2B 与 E4B 的核心差异,帮助选择:
| 项目 | E2B | E4B |
|---|---|---|
| 有效参数(近似) | 23 亿 | 45 亿 |
| 下载体积(GGUF) | ≈ 2.54 GB | ≈ 3.61 GB |
| 优点 | 更小,内存/存储占用低,加载更快 | 更强的理解与生成质量,表现更接近大模型 |
| 缺点 | 表现有限(较弱的长文本一致性) | 占用更多内存/存储,加载慢,需要更高算力 |
| 适合用户 | 低至中端手机、追求更快启动 | 高端手机与追求更好交互质量的用户 |
选择建议:如果你的手机 RAM ≤ 6GB,优先选择 E2B;如果 RAM ≥ 12GB,E4B 可带来明显体验提升。
第二章:部署方法 — 三种方式供你选择
选择依据:想要最简体验就用方法一;熟悉命令行并希望可控则选方法二;追求极致性能与调参则选方法三。
方法一:Google AI Edge Gallery App(最简单,首选推荐)
- 下载应用:在 Google Play 商店搜索并安装“Google AI Edge Gallery”,认准谷歌官方出品或https://akexiaozhan.lanzouu.com/iLuPA3mr2rna。
- 进入首页,点击左上角三条杠,选择 Models,选择
Gemma 4 E4B it模型,点击 Download 下载。 - 下载后选择 Try it 开始离线聊天。
说明:此方法免维护、无需命令行,适合大多数用户。
方法二:Termux + Ollama(进阶命令行玩法)
适合想要通过 Ollama 管理模型、使用更灵活接口的用户。
步骤概览:
- 从 F-Droid 安装 Termux(F-Droid 版本更活跃)。
- 打开 Termux,更新与安装 Ollama:
pkg update && pkg upgrade -y |
- 启动 Ollama 服务(在一个 Termux 会话中保持运行):
ollama serve & |
- 在新 Termux 会话中拉取并运行模型:
# 运行 E2B |
注意:ollama serve 必须先启动,否则 ollama run 会报错。
方法三:Termux + llama.cpp(极致性能爱好者)
适合需要最大化本地性能、使用 Vulkan GPU offload 的高级用户。
- 安装 Termux 并更新系统:
apt update && apt upgrade -y |
- 安装编译与运行依赖(示例命令,视 Termux 仓库而定):
pkg install build-essential cmake clang git python -y |
- 下载 GGUF 模型文件(通过 Hugging Face 或镜像站):将
.gguf文件放至手机存储的某个目录,例如~/models/。
提示:下载建议使用手机/电脑先下载好再拷回手机,避免移动网络中断。
- 运行模型(示例):
cd ~/models |
常用参数说明:
-m <模型文件>:指定 GGUF 文件。-ngl N:将前 N 层 offload 到 GPU(Vulkan);设为 0 则关闭 GPU offload。-c <ctx>:上下文长度(context),如 2048 / 4096 / 16384。-b <batch>:token batch,大数值可增加吞吐但占内存。-t <threads>:CPU 线程数。
注意:Vulkan 驱动与 -ngl 的配合可能对稳定性有影响,若出现错误请调小 -ngl 或设为 0。
第三章:运行与测试 — 验证你的 AI
首次启动与加载时间
- 方法一(App):通常在几十秒到几分钟(取决于设备与模型)完成下载与加载。
- Ollama:取决于网络与设备,多数情况下初次下载模型需数分钟;加载到内存取决于模型大小与设备 RAM。
- llama.cpp:模型本地化后加载速度取决于 I/O 与量化格式,GGUF + q4 量化通常更快且占用更少内存。
对话测试用例
请在模型运行后逐条测试以下提示:
- “介绍一下你自己。”
- “用两句话解释量子纠缠。”
- “讲一个适合上班路上的冷笑话。”
记录每条测试的首字响应时间(从发送到收到首个 token)与完整回复时间。
性能记录(示例模板)
- 设备:真我 NEO7 Turbo(16GB)
- 方法:Termux + llama.cpp(q4)
- 模型:E4B (gemma4-e4b.gguf)
- 首字响应:约 0.8s
- 平均推理速度:约 12 tokens/s(视参数而定)
请根据你自己的设备记录并比较不同方法的数据。
第四章:性能优化 — 榨干手机性能
内存管理
- 使用 4-bit 量化(如
q4_k_m等 q4 系列 GGUF 文件)能大幅降低内存使用。 - 限制并发会话数(示例):
export OLLAMA_MAX_SESSIONS=1 |
- 使用
termux-wake-lock防止 Android 系统在后台清理 Termux 进程:
termux-wake-lock |
推理速度与精度权衡
- Vulkan 加速:通过
-ngl参数将部分层 offload 到 GPU,提高速度但可能带来不稳定性。 - 调整上下文长度
-c:手机建议从2048或4096开始测试;过大上下文会显著增加内存占用。 - 减少 batch/beam/采样复杂度有助于降低内存压力并提升响应速度。
第五章:常见问题与排障(FAQ)
问题 1:下载模型很慢或失败?
- 建议:使用 Hugging Face 镜像站(或在台式机下载后拷回手机),并保证足够存储空间。可使用
aria2或其它下载工具断点续传。
问题 2:运行 Ollama 时 Termux 闪退?
- 解法:检查是否启用了系统电池优化或后台限制,关闭 Termux 的电池优化;使用
termux-wake-lock保持进程存活。
问题 3:ollama run 报错 “no such file or directory”?
- 原因:通常 Ollama 服务未启动。确保在另一个 Termux 窗口中运行了
ollama serve并保持其运行。
问题 4:llama.cpp 输出乱码?
- 可能原因:
-ngl设置过高导致 Vulkan/驱动问题。尝试将-ngl调小或设为0,或更新 Vulkan 驱动/系统。
附录:资源与致谢
- Google AI Edge Gallery(App): 在 Google Play 搜索 “Google AI Edge Gallery”。
- Gemma 4 官方资料:请参考模型发布方的技术报告与说明(建议访问官方页面或对应 README)。
- Termux(F-Droid): 从 F-Droid 安装最新 Termux。
- llama.cpp 仓库:https://github.com/ggerganov/llama.cpp
- Hugging Face 镜像与模型下载:优先使用官方或受信任的镜像站点。
感谢社区开源工具与贡献者:Ollama、Termux、llama.cpp 及模型维护者们。




