跳转到内容

系统冗余

本页使用了标题或全文手工转换
维基百科,自由的百科全书
冗馀的电脑电源

冗馀英语redundancy)是指系统为了提升其可靠度,刻意配置重复的零件或是机能。冗馀一般是为了备用,或是失效安全的考量,也有可能是为了提升系统性能,像是卫星导航系统接收器,或是多线程电脑处理。

在许多生命攸关系统(像是飞机中的Fly-by-wire液压系统)中,控制系统的一些元件会特别配置三组[1],一般称为三重模块冗馀(TMR)。若其中一个有问题,其他二个正常,则会依类似投票的机制,以二个正常的模块为准。在三重模块冗馀的系统中,至少要有二个模块有问题才可能造成系统失效。因为模块的失效率其实很低,而且模块的失效是互相独立的,因此二个模块都失效的机率相当的低,会低于比其他的风险因素(例如人为错误)。冗馀也可以称为是“多数决系统”[2]或“投票式逻辑”[3]

悬索桥的许多缆绳也是冗馀的一种

有时冗馀不会提高系统的可靠度,反倒会降低系统的可靠度。有冗馀设计的系统是比较复杂的系统,也比较容易被其他问题影响。有冗馀的系统比较容易让操作者疏忽职责,或是给予系统较大的生产需求,使系统处于过应力,较不安全的情形下[4]

冗馀的种类

其中的子系统"B"是冗馀的(三重模块冗馀)
串联(A)及并联(B)的系统,两者的组合即为(C)[5]

电脑科学中,主要有四种不同的冗馀[6],分别是

另一种由软体冗馀衍生,但应用在硬体上的冗馀是:

  • 不同机能冗馀,像是车辆中同时有机械刹车及油压刹车。此作法是用软体中的例子,二个独立由不同人写作,有相同功能的模组,针对同一讯号产生相同的输出

建筑结构在进行设计时,一般也会设计冗馀的模组,在只有一个零件损坏的情形下,不会破坏整个结构。没有设计冗馀的结构称为fracture critical英语Fracture critical,意思是单一零件的损坏可能破坏整个结构。像美国西维吉尼亚州俄亥俄州Silver Bridge英语Silver Bridge(在1967年倒塌)和华盛顿州Skagit River Bridge英语Skagit River Bridge(在2013年倒塌)都是没有考虑冗馀结构桥梁的例子。


平行系统及组合式系统都有不同程度的冗馀。这些模型是可靠度及安全工程研究的主题。

主动冗馀及被动冗馀

采用主动冗馀设计的变电所

冗馀可以分为被动冗馀及主动冗馀英语active redundancy。两种冗馀都是利用额外的零件,在没有人为介入的情形下,避免性能低于所需的规则以外。

被动冗馀是用多馀的数量或能力来减少零件损坏的影响。像桥梁上的缆绳及支撑的强度都会较所需的强度要高一些,就是被动冗馀的例子。提升的强度可以使桥梁不会因为部份元件损坏而倒塌。额外提升的强度即为安全裕度。

人的耳朵和眼睛也是被动冗馀的例子。一个眼睛若完全没有视力,不会让人失明,不过视觉上无法识别远近。一个耳朵若完全没有听力,不会让人失聪,但无法透过耳朵识别声音的位置。被动冗馀的系统,若有少量的故障,可能也会伴随性能的降低。

主动冗馀是用监控个别设备的方式来消除性能降低,监控时也会用投票式逻辑。投票式逻辑会连接到开关,自动调整零件的组态。错误检测与纠正及修正及全球定位系统(GPS)都是主动冗馀的例子。

配电系统就是主动冗馀的例子。有许多高压电缆连结发电设备及用户。每一组高压电缆都会监测负载,也会有断路器。高压电缆的组合可以提供的电力超过总用电量。若高压电缆侦测到负载过载,会切断断路器。会由其他的高压电缆提供用户所需的电力。

缺点

高风险技术与“正常”事故英语Normal Accidents》的作者查尔斯·佩罗英语Charles Perrow曾提到:有时冗馀反而会带来反效果,让可靠度变低,而不是提升可靠度。冗馀降低可靠度的可能原因有三个:第一,冗馀安全设备使系统变复杂,比较容易出现故障及意外,再者,冗馀比较容易让工作者轻忽,最后一点是常常会给予过高的产能压力,使系统运作在较高,但较不安全的速度下[4]

投票式逻辑

投票式逻辑会利用性能监控来决定个别模组的配置,目的是让系统可以在符合整体规格要求的情形下继续运作。投票式逻辑一般会包括电脑,不过没有电脑的系统仍然可以使用投票式逻辑,像用断路器就是非电脑式投票式逻辑的例子。

电力系统会用电力调度来达到主动式冗馀。在一个发电设备出现问题,由电脑系统调整其他发电设备的发电量。这可以避免一些重大事件(例如地震)时的停电

计算系统中最简单的投票式逻辑包括二个零件:主要零件及备援零件。二个的软体都相近,不过正常情形下,备援零件的输出无效,主要零件会周期性进行自我监控,若一切正常的话,会送出活动中信息给备援零件。若主要零件监测到问题,主要零件的输出以及活动中信息都会停止。备援零件会监测活动中信息,若活动中信息消失,备援零件会等待一小段时间,之后会用备援零件的输出代替主要零件。若是投票式逻辑本身有问题,可能会让二个零件的输出都同时有效或是无效,或是让输出频繁在有效及无效之间切换。

另一种比较可靠的投票式逻辑是包括三个或是三个以上的奇数个零件。所有零件的机能都相同,透过投票式逻辑来比较所有零件的输出。若输出有不一致时,由投票式逻辑决定多数的输出,和多数输出不一致的零件,其输出会类似失效。单一故障不会中断正常机能。在航空电子系统中有使用此一技术,例如负责航天飞机运作的系统。

计算系统失效的机率

系统中每一个冗馀的零件,都会减少系统失效的机率。

假设失效事件之间是相互独立的(不论零件A是否失效,不会影响零件B的失效机率),并且只要有一个元件就可以使系统正常运作。

系统失效机率的公式如下:

其中

  • :零件个数
  • :零件i失效的机率
  • :所有零件i失效的机率(系统失效)

学术研究

利用冗馀零件的分配来最佳化系统是历史悠久且常见的数学规划问题:

  • 冗馀分配问题 (Redundancy Allocation Problem, RAP) : RAP是一种可靠度最佳化的设计工具,是在已知每个子系统中零件可靠度的情况下,分配每个子系统中的零件数量以最大化系统可靠度。[7]
  • 可靠度冗馀分配问题 (Reliability Redundancy Allocation Problem, RRAP) : RRAP由RAP衍伸,除了分配子系统中的零件数量外,每个子系统的零件可靠度也是决策变数,目标最大化系统可靠度。[8]

近年来随著柔性运算的发展,许多学者改以利用元启发算法来求解上述两种问题。[9][10]

相关条目

参考资料

  1. ^ Redundancy Management Technique for Space Shuttle Computers页面存档备份,存于互联网档案馆) (PDF), IBM Research
  2. ^ R. Jayapal. Analog Voting Circuit Is More Flexible Than Its Digital Version. elecdesign.com. 2003-12-04 [2014-06-01]. (原始内容存档于2007-03-03). 
  3. ^ The Aerospace Corporation | Assuring Space Mission Success. Aero.org. 2014-05-20 [2014-06-01]. (原始内容存档于2008-04-10). 
  4. ^ 跳转到: 4.0 4.1 Scott D. Sagan. Learning from Normal Accidents (PDF). Organization & Environment. March 2004 [2018-11-22]. (原始内容 (PDF)存档于2004-07-14). 
  5. ^ Kokcharov I. Structural Safety http://www.kokch.kts.ru/me/t6/SIA_6_Structural_Safety.pdf页面存档备份,存于互联网档案馆
  6. ^ Koren, Israel; Krishna, C. Mani. Fault-Tolerant Systems. San Francisco, CA: Morgan Kaufmann. 2007: 3. ISBN 0-12-088525-5. 
  7. ^ Fan, Liang Tseng; Wang, Chiu Sen; Tillman, Frank A.; Hwang, Ching Lai. Optimization of Systems Reliability. IEEE Transactions on Reliability. 1967-09, R–16 (2): 81–86 [2021-05-25]. ISSN 1558-1721. doi:10.1109/TR.1967.5217465. (原始内容存档于2021-05-25). 
  8. ^ Tillman, Frank A.; Hwang, Ching-Lai; Kuo, Way. Determining Component Reliability and Redundancy for Optimum System Reliability. IEEE Transactions on Reliability. 1977-08, R–26 (3): 162–165 [2021-05-25]. ISSN 1558-1721. doi:10.1109/TR.1977.5220102. (原始内容存档于2021-05-25). 
  9. ^ A two-stage discrete particle swarm optimization for the problem of multiple multi-level redundancy allocation in series systems. Expert Systems with Applications. 2009-07-01, 36 (5): 9192–9200 [2021-05-25]. ISSN 0957-4174. doi:10.1016/j.eswa.2008.12.024. (原始内容存档于2021-05-25) (英语). 
  10. ^ Genetic algorithms for reliability design problems. Microelectronics Reliability. 1998-10-01, 38 (10): 1599–1605 [2021-05-25]. ISSN 0026-2714. doi:10.1016/S0026-2714(98)00028-6. (原始内容存档于2021-05-25) (英语). 

外部链接