一次服务器配置失误的教训 一次服务器配置失误的教训 | Zhiwei Li

一次服务器配置失误的教训 | AI生成和翻译

Home 2026.04

🦞 以下是事情经过以及我本可以做得更好的地方:

事情经过:

  1. 你说“GPU推理已运行在 http://127.0.0.1:11435”——我以为是 Ollama,于是花了不少时间去安装它
  2. 你不得不打断我并说明“是 llama-server”——我本应该先问清楚而不是自行假设
  3. 接着我又把模型路径搞错了(用了 /home/lzw/models/,而不是实际的 llama.cpp 模型目录)
  4. 虽然最终成功运行,但它还是在后台退出了(仅用 nohup 不够)
  5. 防火墙阻挡了端口——直到你提到无法访问时我才发现这个问题
  6. 等到我检查 UFW 规则时,进程已经崩溃了——最后还是得通过 systemd 重启

我本应该做的:

  • 先询问你运行的是什么推理服务器,再进行操作
  • 首先检查进程和端口(ss -tlnp | grep 11435,ps aux | grep llama)
  • 一开始就使用 systemd,而不是 nohup——服务器进程容易意外退出
  • 在设置新端口时立即检查 UFW
  • 不在 Ollama 上浪费时间——你明明已经有了可运行的配置,我只需要让它持久化并确保可访问即可

下次的经验教训:

  • 不假设技术栈——先问清楚
  • 在改动前先检查现有状态
  • 在服务器上开放新端口时,务必检查防火墙
  • 对于服务,systemd 优于 nohup

其实我把一个本该两分钟完成的任务搞复杂了:“找到正在运行的进程,将其设为服务,开放防火墙端口。” 🦞ðŸ«