记一次服务器事故

经过

今天(2023年7月11日)晚上,我准备更新一下Hugo和Hugo主题。在这之前,顺便更新了一下软件包。

在更新软件包的过程中,执行中途中断了,我再用yum也没有任何反应。

我就上网搜解决方法,各种结果都是因为网络问题。我测试了一下网络发现没有什么问题,按照网上的方法也不成功。

这时我就有点着急,这种“疑难杂症”看上去不太好解决——yum经常用,这种问题怎么从来没出现过?

我抱着试试就逝世的心态reboot了一下服务器,然后准备登录宝塔看看到底怎么回事。reboot完成后,又发现了宝塔绑定的网址打不开,其他的网址也502了。

image-20230711214617129

(令人窒息的Bad gateway 502)

这是怎么回事?我反手一个重启nginx,但是报错了:Failed to start LSB: starts the nginx web server. 再在网上一搜,试了一下发现没用。这时,我束手无策,只能在命令行里对设置通过ip进入了宝塔。虽然设置的过程并不太顺利,但是最后设置好了。

看到登录框显示在屏幕上,我长舒了一口气。登进宝塔后,我突然看到硬盘容量占用达到了100%!

image-20230711215306515

那么问题就很好解决了,删掉一些文件,腾出来足够的空间就可以了。

但是,nginx的问题怎么解决?我突然想到我用宝塔里的一个插件 (nginx free firewall) 做防火墙,可能是两者产生了冲突。我便关掉插件再重启了一下nginx,问题就解决了。

反思与总结

我想到了前几个月学校邮箱服务器出现的问题,也是类似的“产生的日志过多导致C盘爆满”,导致邮箱的服务中断了好几个小时。我虽然很早就看到硬盘空间快要满了,却毫不在意,确实是不应该的。

假使有互联网公司没有做好冗余,一旦发生类似于这次的事故,可能会导致不可估量的后果。“事故来源于麻痹”,我们应该对安全时时刻刻保持警惕。

随手一记,没想到写了六百多字,而且没有任何ai辅助创作。要是写作文也能像这样就好了。