数据中心如何建设,数据中心机房维护方法详解
为了避免产生昂贵的成本,并充分利用电力系统,使数据中心具有大小合适的电源和空间,采用模块化策略是明智的,可以降低成本,而不必牺牲未来扩展的灵活性。
b.运维参与前期规划设计,可将运维阶段的需求在规划设计中得到充分考虑; c.运维参与前期规划设计,可充分了解和掌握所维护系统的结构、可靠性薄弱环节、遗留问题、潜在风险,有助于提高运维质量、有根据地制定运维计划和切实可行的改造计划。
b.应避免出于倾向、喜好或利益驱动。在规划设计阶段部分设备厂商可能会通过夸大设备性能、混淆概念等手段影响规划设计人员的方案制定和设备选型。
例如,如果正在为托管目的建设数据中心,可能有配备交流(UPS)供电系统的需求,而如果是要成为一个电信设施,这可能需要部署直流电源系统。知道这些,就会知道所需要的直流电源或UPS电源系统的大小和规模。 在部署备份电池时,最好根据15分钟备用放电时间进行配置。这样部署备用电池,不会显著增加资本支出,虽然这将很难自圆其说,但这更符合成本效益。企业需要提高备用发电机组的冗余度,而不是在增加电池数量浪费更多的资金。
a.先建楼体结构,后规划数据中心,为数据中心规划设计带来难以克服的困难; b.机房建设和设备安装完毕即开始改造的现象普遍存在; c.先确定设备,再确定方案,由于所购设备功能不满足方案要求,或场地不满足安装条件要求,因而设备尚未运行就要更换; d.建设结构很难满足数据中心场地布局要求,使机房分区规划不合理;空调室外机无法安装或距离太远;动力室与主机房距离太远,增加传输和管理困难,增加成本,降低可靠性。
系统三分建设、七分维护,任何设备都可能发生故障,可快速修复已经成为提高可用性的关键指标。 忽视可维护性和可修复性的现象表现在: a.规划设计阶段未考虑后期维护通道、维护空间,例如设备距离墙壁太近,电池靠墙摆放,线缆布局不合理、线缆管路或走线架挡住上方弱电线槽导致后期无法维修、维护工具难以施展等; b.故障发生时,应急物资和备件无法快速搬运,故障设备和器件更换无维修操作空间等问题,延误了故障处置时限甚至引发重大事故; c.未考虑后期发生故障进行设备维护时系统的冗余保障能力; d.未尽可能采用自动化手段,最大程度减少维护人员手动操作环节,降低因手动操作存在的不确定性和不可控性。
a.数据中心在规划设计时都会进行各系统可靠性的推算,但目前各设计院、不同的设计人员对可靠性的推算依据和数据来源尚未统一,造成对同一数据中心的设计等级和可靠性存在不同定义和不同的结果; b.对可用性存在着先进行规划设计、施工,建设完成后再反推设计等级的案例,并以反推的等级标准向数据中心用户进行推介。此为本末倒置的设计,往往因为设计中的某些关键缺陷导致虽然绝大部分设计满足等级要求,但因为关键缺陷的存在造成等级下降; c.只注意设备或环节(子系统)的可用性,而忽略在整个系统中各子系统之间的相关性对可用性的影响。
在规划设计初期,主观臆断确定数据中心的功能指标,不切实际地一味追求规模大、高可用性等级、高机架功率密度、低能耗指标PUE。 而具体规划设计时,又没有严格按照规划原则和程序做详细的论证,具体方案和实际措施与总体规划部匹配,其结果是: a.由于实际需求不明确,缺乏可行性的必要条件,反复设计、修改,不仅造成成本的浪费,还大大延长了建设周期; b.已建成并投入使用的机房得不到充分利用,究其原因或因无预想的业务需求量,或因机房条件不满足用户需求而必须进行再优化改造才能使用; c.规划设想的功能不能实现,如系统可用性达不到规划等级、制冷方案不支持规划的机架高功率密度、发电机不支持系统连续运行条件、过度规划使系统能耗指标PUE居高不下等。
业内特别是规划设计人员普遍存在着重设备轻系统和重局部忽视大局的现象,主要表现在: a.先确定设备规格型号甚至生产厂家,然后根据设备选择或修改设计方案; b.供电系统按最高可用等级2N冗余设计,但所设计的结果是仅仅UPS系统有2N功能,而整个供电系统却存在单路径故障点; c.整个系统按最高等级冗余容错系统设计,但是空调制冷设备却是单路径供电; d.为系统配置了交流备用能源柴油发电机,但发电机没有自动启动功能,因为规划设计者缺乏连续制冷也是系统连续运行的重要条件的认识。
提高系统统筹设计能力对优质地完成规划设计任务是非常重要的。 a.在数据中心建设过程中存在着大量因规划设计对分阶段、分专业实施阶段工程,以及不同专业施工间衔接问题考虑不足造成交付的数据中心不满足业务及维护需求,有些问题甚至需要大笔投资进行改造方可完成; b.不同设计人员只关注自身所负责内容,对于其他专业的是否完美衔接,是否与其他专业设计之间存在矛盾和冲突缺乏全局考虑; c.规划设计人员对未来业务发展缺乏准确把握,对后期容量管理、扩容等方面考虑不足; d.规划设计人员对周围资源环境和物理环境不熟悉,所设计的方案会出现实施可行性差或者为后来运维工作带来难以克服的困难。