前年有段时间太忙,一直没时间打理网站. 忽然有一天发现网站无法访问, putty,控制台都无法登陆. 后来重启以后才行. 没想到登陆以后发现网站一个多月没有访问log /var/log/下一个多月没有任何日志更新. 这时才知道ecs挂了一个多月!!! 提工单,给了他们服务器密码, 阿里云的技术人员检查完以后说没发现任何问题!! 当时给的解释好像是ecs假死, 现在解释叫系统卡死. 不管是假死还是卡死都和他们没关系!他们推得一干二净! 问什么原因导致的?他们的解释: 常见的系统卡死的原因常见的主要有 cpu 内存 io 使用率跑满.
我的cpu使用率基本维持在1%左右, 就是在服务器挂掉前那一刻也一样, 从阿里云的控制台能查到历史数据. 如果cpu使用率是这样,那内存 io 使用率是否跑满就可想而知了! 现在阿里云回复是系统卡死的原因找不到,服务器挂掉也检测不到! ecs挂掉cpu,内存io,硬盘io,流量都是0 阿里云对这些数据都有监控… 实际上他们监控的更多,甚至每一个网页.. 但是就是判断不出来服务器异常!! (记得以前好像有异常提示,不知道有没有人遇到过?) 如果你检测不到服务器挂掉,我怎么知道是不是有人故意关掉的呢? 不知道他们是怎么判断ecs运行停止的?
这套linux系统用了10多年,现在依然在用. 在这一年多里一直正常.
您好,这种问题产生的原因比较多,系统内核bug,异常应用进程,底层问题等较多场景都可能触发该问题,需要结合具体的监控信息和提取内存转储文件等手段,进一步分析。 开启Windows实例的内核转储(Kernel Memory Dump)功能的方法 https://help.aliyun.com/document_detail/41013.html Linux实例如何开启Kdump服务 https://help.aliyun.com/document_detail/167572.html 如果要保持服务器的高可用能力建议参考高可用架构最佳实践https://help.aliyun.com/document_detail/137317.html,同时建议通过云监控的主机监控https://help.aliyun.com/document_detail/43503.html 对站点状态进行监控,配置合理的报警规则,以便在有问题的时候能够第一时间发现并通知到您及时进行检查处理。
阿里云客户应该用过控制台重启(有的还用过定时重启). 重启以后会显示失败或成功的(也有短信通知). 他们是怎么检测到失败或成功的? 难道检测不到ecs死掉?