type
status
date
slug
summary
tags
category
icon
password
URL

计算机可靠性概述

计算机系统的硬件故障通常是由元器件的失效引起的。对元器件进行寿命试验并根据实际资料统计得知,元器件的可靠性可分成3个阶段。在第一阶段开始阶段,元器件的工作处于不稳定期,失效率较高;在第二阶段,元器件进入正常工作期,失效率最低,基本保持常数;在第三阶段,元器件开始老化,失效率又重新提高,这就是所谓的
notion image
因此,应保证在计算机中使用的元器件处于第二阶段。在第一阶段应对元器件进行老化筛选,而到了第三个阶段,则淘汰该计算机。

向量计算机系统的指标

计算机的RAS指的是
计算机系统可靠性(Reliability) 可用性(Availability) 可维修性(Serviceability)
这三个指标共同衡量了一个计算机系统的综合性能和质量。
  • 可靠性(Reliability):指的是系统在规定的时间或条件下,正常工作的能力。通常用平均无故障时间(MTBF)来衡量,MTBF 表示两次故障之间系统能正常工作的平均时间,计算公式为 MTBF = 1/λ,其中 λ 是故障率。
  • 可用性(Availability):表示系统在执行任务的任意时刻能正常工作的概率。可用性可以通过公式 A = MTBF / (MTBF + MTRG) 来计算,其中 MTBF 是平均无故障时间,MTRG 是平均恢复时间,包括平均修复时间(MTRF)和故障检测时间。
  • 可维修性(Serviceability):通常用平均修复时间(MTRF)来衡量,指的是从故障发生到机器修复平均所需要的时间,反映了计算机的维修效率。
这三个指标是衡量计算机系统性能的重要标准,它们帮助用户了解系统的稳定性、效率和维护的便利性。不同的计算机系统,即使使用相同的硬件组件,由于设计、制造工艺和质量控制的差异,其RAS指标也可能有显著的不同。

计算机可靠性计算

失效率

计算机系统的可靠性是指从它开始运行(t=0)到某时刻 t 这段时间内能正常运行的概率,用R(t)表示。所谓失效率,是指单位时间内失效的元件数与元件总数的比例,用λ表示,当λ为常数时,可靠性与失效率的关系为
R(t) = e^-λt

平均无故障时间(MTBF):

两次故障之间系统能正常工作的时间的平均值:
MTBF=1/λ

平均修复时间(MTRF):

表示计算机的可维修性,即计算机的维修效率,指从故障发生到机器修复平均所需要的时间

计算机可靠性模型

计算机系统是一个复杂的系统,而且影响其可靠性的因素非常复杂,很难直接对其进行可靠性分析。但通过建立适当的数学模型,把大系统分割成若干子系统,可以简化其分析过程。常见的系统可靠性数学模型有以下3种。

串联系统。

假设一个系统由N个子系统组成,当且仅当所有的子系统都能正常工作时系统才能正常工作,这种系统称为串联系统。
notion image
设系统中各个子系统的可靠性分别用R1,R2,…,RN来表示,则系统的可靠性R可由下式求得。
R=R1·R2·…·RN
如果系统的各个子系统的失效率分别用λ1,λ2,…,λN来表示,则系统的失效率λ可由下式求得:
λ = λ1+λ2+…+λN
【例1】设计算机系统由CPU、存储器、I/O三部分组成,其可靠性分别为0.95、0.90和0.85,求计算机系统的可靠性。   解:R = R1 • R2 • R3 = 0.95 × 0.90 × 0.85 = 0.73   计算机的可靠性为0.73。

并联系统

假如一个系统由N个子系统组成,只要有一个子系统正常工作,系统就能正常工作,这样的系统称为并联系统。
notion image
如果每个子系统的可靠性分别以R1,R2,…,RN表示,整个系统的可靠性可由下式求得。
R = 1 - (1-R1) - (1-R2) … (1-RN)
在并联系统中只有一个子系统是真正需要的,其余N-1个子系统称为冗余子系统,随着冗余子系统数量的增加,系统的平均无故障时间也增加了。 假如所有子系统的失效率均为λ,则系统的失效率μ为
μ = 1/((1/λ) * Σ(1/j))
【例2】设一个系统由3个相同的子系统构成,其可靠性为0.9,平均无故障时间为10000小时,求系统的可靠性和平均无故障时间。   解:R1 = R2 = R3 = 0.9    λ1 = λ2 = λ3 = 1/10000 = 1×104(小时)   系统可靠性 R = 1 - (1-R1)3 = 0.999   系统平均无故障时间为
notion image

N模冗余系统

N模冗余系统由N个(N=2n+1)相同的子系统和一个表决器组成,表决器把N个子系统中占多数相同结果的输出作为系统的输出。
notion image
在N个子系统中,只要由n+1个或n+1个以上的子系统能正常工作,系统就能正常工作,输出正确的结果。
假设表决器是完全可靠的,每个子系统的可靠性为R0,则N模冗余系统的可靠性为:
notion image

串并联混合

notion image
可靠性为: Rx(1-(1-R))x((1-(1-R))

提高计算机的可靠性

  1. 提高元器件质量,改进加工工艺与工艺结构,完善电路设计。
  1. 发展容错技术,使得在计算机硬件有故障的情况下,计算机仍能继续运行,得出正确的结果。
网规学习笔记-1. 计算机软硬件基础知识探访实习生有感
Loading...
Miro
Miro
一个普通的干饭人🍚
最新发布
技术分享 | 重复信息自动填写工具
2024-12-17
18个AI工具引领教学变革
2024-12-17
为客人预订房间标准操作流程
2024-12-17
突发奇想|用软件开发的思想写’为客人办理入住SOP’
2024-12-17
国足排名从第92位到第90位的"巨大进步"
2024-12-17
龚老师聊WordPress:网站搭建的瑞士军刀及其优缺点
2024-12-17
公告
🎉NotionNext 4.5已经上线🎉
-- 感谢您的支持 ---
👏欢迎更新体验👏