服务器故障是影响各种类型和规模组织的一个常见问题,服务器停机的成本还包括系统无法访问关键业务数据的时间。这可能导致操作问题、服务中断和维修成本。
发生故障的潜在原因可能源自服务器硬件、软件或数据中心设施。如果了解可能导致服务器故障的原因,则可以在故障发生之前解决问题,并完全避免停机,但是,如果确实发生了服务器故障,则组织最好制定应急计划。
是什么导致服务器出现故障?
如果收到警报或发现有故障,解决服务器故障的第一步是确定服务器发生故障的方式和原因;组织实施这一操作的时间可能是停机时间分钟数和天数之间的差异。服务器故障的常见原因包括:
如何防止常见服务器故障
持续不断的重新引导和突然的缓慢指示服务器有故障。越能清楚地看到这些迹象,就可以更快地采取行动。服务器监视软件可以帮助组织保持服务器正常运营状态,并密切监视关键系统,并获得任何潜在问题的警报。
除了监视工具集之外,还可以执行预防性维护步骤,以确保服务器正常运行。
(1) 确保最佳环境温度。服务器需要适当的通风和温度控制,以免发生过热。检查内外表面是否积有灰尘,并根据需要调整温度设置。
(2) 进行日常维护。硬件问题往往是最难预测和预防的,因为它们可能会随机发生。需要注意每台服务器的使用寿命,执行例行磁盘检查,并定期更新/升级系统。当服务器工作使用寿命到期之后,将过时的零件或机器全部更换。预测分析还可以帮助识别部件何时可能出现故障。
(3) 定期安装更新。定期安装软件、操作系统更新和补丁。这样可以保持性能,并保护服务器免受容易利用的软件漏洞的影响。
(4) 维护严格的访问控制和详细的事件日志。人为错误几乎不可能消除。采用自动化技术可以最大限度地减少人为错误,但仍然需要人为干预。为了降低风险,严格记录可以访问服务器机房和管理软件的人员。组织还应该保存详细的事件日志,并定期对其进行检查。
(5) 监视性能趋势。通过持续的性能监视检查,组织可以更好地预测高峰期所需的资源,并确定性能低下,这可能表示即将发生故障。这些趋势还可能揭示潜在的硬件和软件问题或需要额外散热的服务器机房区域。确保维护日志文件、清空回收站、删除临时文件夹中的文件,以及对硬盘任务进行碎片整理,以保持性能水平并避免系统过载。
(6) 制定服务器应急计划。冗余是防止服务器故障导致停机的重要组成部分。服务器应急计划应建立可用的辅助硬件,例如多个电源、冗余内存和备份服务器。
(7) 设计灾难和数据恢复计划。如果发生自然灾害或安全漏洞,灾难恢复计划和数据恢复计划将使企业免于长时间的停机和灾难性的数据丢失,并在最坏的情况下制定备份计划至关重要。
如何解决服务器故障并从中恢复
即使服务器在预防性维护的情况下发生故障,管理人员也可以采取一些步骤来有效地恢复。除了重新启动,还有视觉提示和诊断软件可以用来查找可能的原因。
一旦确定了根本原因,就可以切换到备份服务器,并采取必要的步骤来修复故障。
在VMworld 2020,VMware宣布与NVIDIA进行全面合作,共同推出新一代的混合云架构...
本文中的五个步骤有助于您掌握转型的总体需求,并有助于您处理一些真正重要的事...
根据TrendForce的最新调查,自2020年初以来,COVID-19流感大流行加速了世界各地...
在疫情的影响下,人们的工作和生活方式在过去的一年发生了前所未有的变化。为了...
根据调查,随着用户对计算能力、存储和网络容量的需求增长,服务器需求比经济不...
人头马君度(Rmy Cointreau)的历史非常重要,这家酒业公司以将最好的酒陈化100年...
2020年11月26日深圳潮数科技于石家庄成功召开数据安全 新时代新基建信息应用之基...
时间真快呀!转眼又至周一。让我们卯足干劲继续前行,先来看看上周有哪些不容错...
【51CTO.com快译】数字化转型使应用程序领导人必须找到有效的方法来更新改造遗留...
2020年以来,由疫情停工减产所导致的缺芯困局影响着全球汽车发展,而本以为2021...