冗長モジュールとは、メインワークモジュール以外のシステムに追加で構成された代替モジュールまたはコンポーネントのことです。メインモジュールに障害が発生した場合、冗長モジュールはシステムの停止やデータ損失を回避するために、自動的にまたは手動で動作を引き継ぐことができます。
冗長モジュールは追加のコンポーネントまたはシステムを追加することによってシステムの信頼性、フォールトトレランス能力と可用性を向上させる設計方法であり、航空宇宙、工業制御、通信ネットワーク、データセンターなど安定性に対する要求が高い分野に広く応用されている。その核心的な考え方は、「バックアップ」メカニズムを通じて、一部のコンポーネントが故障してもシステムが正常に動作することを確保することです。
冗長モジュールの信頼性の高い動作は、3つのコア技術コンポーネントの連携に依存します。
故障監視ユニット:電圧、電流、信号フィードバックなどの方式を通じてリアルタイムに主モジュールの状態を検出し、常用技術は「心拍検出」(主従モジュールの定期的な相互送信)、「電流サンプリング」(主モジュールの負荷が異常かどうかを監視)を含む。
切替制御ユニット:監視ユニットの故障信号を受信した後、切替ロジックをトリガし、一般的な方法は「ハードウェア切替」(リレー、FPGA高速切替回路を通じて)と「ソフトウェア切替」(オペレーティングシステムまたは専用ファームウェアを通じて制御)である。
データ同期ユニット:マスターモジュールと冗長モジュールのデータ整合性を確保し、切り替え後のデータ損失を回避する。一般的な技術としては、「リアルタイムミラーリング」(マスターモジュールデータを冗長モジュールにリアルタイムコピー)、「増分同期」(変化したデータのみを同期)がある。
設計と使用上の考慮事項
「相同性障害」を回避:主モジュールと冗長モジュールは独立して電力を供給し、独立して放熱する必要があり、例えば冗長電源は同じ回路を共有できない、そうしないと電力網の電源が切れて両者が同時に故障する。
制御コストと複雑さ:冗長モジュールはシステムコスト(例えば、デュアル電源コストがシングル電源より30~50%高い)とメンテナンスの複雑さを増加させ、シーンに応じてバランスをとる必要があり、非重要システム(例えば、家庭用ルータ)は構成する必要がありません。
定期的なテストとメンテナンス:冗長モジュールの長期待機により「暗黙的障害」が発生する可能性があり、定期的に「手動切替テスト」または「自動巡回検査」を通じて、データセンターの毎月の冗長電源切替テストなどの可用性を検証する必要がある。
整合負荷と性能:冗長モジュールの電力、計算力は主モジュールと一致しなければならず、冗長モジュールの性能不足による切り替え後のシステムのダウンタイム運転を避ける。