✅线上服务器如果磁盘满了,你会如何处理?
典型回答
当线上服务器磁盘满了时,这是一个紧急问题,可能会导致服务不可用、数据无法写入甚至系统崩溃。
首先要做的就是快速止血,尽快把空间释放了,避免情况进一步恶化。首先是登陆到机器上(如果都无法登录了,那就只能置换机器了。)
查看磁盘使用情况
df -h
du -sh /*找出哪个分区、哪个目录占用了最多空间。
df(disk free)用于显示文件系统的磁盘空间占用情况,包括每个挂载点的总空间、已用、可用和挂载路径。
df -h
Filesystem Size Used Avail Use% Mounted on
/dev/sda1 40G 30G 8.0G 80% /
tmpfs 1.9G 0 1.9G 0% /dev/shmdu(disk usage)用于显示指定目录或文件占用了多少磁盘空间。常用于查找哪个目录或文件占用空间大。
du -sh /*
2.1G /home
1.2G /var
300M /usrdu -h --max-depth=1 /var 显示 /var 下一级目录占用空间大小。
清理临时文件
- 清空系统临时文件:
rm -rf /tmp/*清理日志文件
多数情况下,磁盘满了都是日志打印的太多了,这时候可以先到你的应用日志目录下,看一下这些文件的大小,对于一些历史日志文件,如果已经完成ELK的采集和同步了,就可以直接rm -rf物理删除了。
如果你的日志只有一个文件,他又特别大,大概率是你的logback没有配置对,导致日志没有分成多个文件,这时候,根据情况,不能直接直接删除文件,因为你的应用还在用,这时候可以考虑> file_name或者echo "">file_name的方式,让日志内容清空。但是可能会导致日志丢失。
查找大文件
找出大于1G的文件:
find / -type f -size +1G -exec ls -lh {} \;扩展知识
如何避免日志把磁盘打满?
-
定期清理脚本
- 写 cron job 自动清理老日志
-
磁盘监控告警
- 使用
Prometheus + Grafana或Zabbix监控磁盘使用率 - 设置告警阈值(比如 80% 告警)
- 使用
-
日志分级+限量
- 按需写日志(只写 ERROR 级别)
- 配置日志轮转(logrotate)
-
考虑分离日志、数据盘
- 应用数据、日志单独挂载到不同分区,避免挤爆系统盘