こんにちは。RYUです。 現在、私はシステム保守運用のサポート業務を担当しております。業務経験としてはQAの方が多いのですが、今はインフラ系の業務を担当しております。
システム運用業務はミスが絶対許されない厳しい世界です。運用しているサービスの規模や種類にもよりますが、多くのユーザが利用しているWebサービスが停止したり、データが損失するような事態が発生した場合には、恐ろしい損害や事故等が発生する原因にもなってしまいます。それだけに、本番環境などを操作するような作業では、より慎重に取り組まないといけません。
とはいえ、私の性格的にボタンがあったら押すタイプなので、苦労しながらもミス防止を意識しながら、日々の業務に取り組んでおります。
システム運用業務ってこんな感じです
私が担当しているのはWebサービスで、日常的には、アラート発生時の対応やディスク容量の調整等を行います。また、定期的なアプリケーションのリリース作業や、不定期ですがファイヤウォールやロードバランサの設定変更、OSのバージョンアップ、仮想サーバの構築等も行っております。
いずれの作業においても、設定ミスやデータ削除等を行ってしまうと、サービス運営に影響を与えてしまいますので、作業中は気が抜けません。ただし、私の経験から強く思うのですが、人間はどうしてもミスをする生き物なんだなぁと感じる場面が多々あります。
そのため、システム運用の現場では運用業務におけるミスを防ぐ取り組みが色々と組み込まれており、今回はそのような取り組みの一部をご紹介させていただければと思います。
ここで紹介させていただく取り組みは、仕事や日常に取り入れることで、多少なりとも、単純なミスを防ぐことができるようになる可能性がありますので、できそうだなと思ったものは、ぜひお試しいただけると嬉しい限りです。
実際の取り組み
以下の内容は、いずれも目新しいものではなく、皆様もご存知のものだと思います。それでも、改めて見直していただくと、案外に役に立つものがあるかもしれませんので、ぜひぜひご覧ください。
その1:見直し
資料や手順書を作成した際、どうしても誤字脱字や認識違い等が発生するものです。本人の自覚や認識の無いところで、想定外の記載をしたり、必要な情報が抜けてしまうことは頻繁に起こります。自分ではそのようなミスは気が付かないことが多いので、作業完了後に見直しを行うべきなのですが、自分の行った作業については疑いを持ちにくいものですし、完成した際の満足感や疲労感から、作業完了直後に見直しを行ってもミスに気付きにくい状態になっております。
そのため、作業完了直後ではなく、少し違う作業を挟んだり、ちょっと休憩するなど、脳に違う刺激や休息を与えてから見直すだけで、自分のミスに気づきやすくなります。
◆実際の取り組み ・手順書の作成や修正が完了したら最低30分は別作業を挟んでから再確認 過去資料流用時はサーバ名表記等に修正漏れが多いので検索機能で再確認すると効果的
この見直すという行為は、日常生活ですと手続き用の書類記入や手紙など、色々な場面で実践できそうです。
その2:他者レビュー
作業手順書や設定用ドキュメントを作成、修正する際には他者レビューを実施します。思い込みや認識違いや記載漏れ等をかなり減らすことができますので、なかなか有効な手段です。 とくに、お客様に提出するドキュメントや本番環境に関する手順や設定に使用するパラメータシート等は重要なので、他者レビューの実施が不可欠です。
先の「見直し」も有効な手段ではありますが、やはり当事者による再確認なので、どうしても思い込みや願望というフィルターが存在してしまいます。また、人によっても注意が向くベクトルが異なりますので、自分とは違う相手からのチェックというものは、非常に有効です。
◆実際の取り組み ・必ず他者レビューを実施して完了するまで次に進めないというルールを運用 手順書を2人で分割作成したときに作成者の認識違いで抜けた作業を他者レビューで指摘できました
日常生活ですと、重要書類の記入時に奥さまや旦那さま、ご両親、ご友人、などなど、身近な方に確認してもらうと良いかもしれませんね。
その3:ダブルチェック
システム全般に致命的な影響を与えるような作業は必ず2人で操作内容の確認を行います。時間に余裕が無く手順書を作成することができない時や、過去に実施した実績のある手順などの場合にも、ダブルチェックで作業をすることも多くあります。
ダブルチェックは、作業を行う際に2名体制でお互いに作業内容を確認しつつ実施していくというものです。先の「他者レビュー」と同じように、1人の不注意や思い込みフィルターなどのミスにつながる要因を減少させることが可能です。とくに、時間が無い時などは、すぐにでも着手できますので、緊急時にも有効な手段となります。
◆実際の取り組み ・簡単な作業でも影響が大きいものはダブルチェック サイトのメンテナンス作業でユーザーアクセスをブロックした場合、作業終了後のブロック解除時刻指定はダブルチェックで行い、必ず予定時間にアクセス再開できるようにしています
日常生活ではお出かけ前に、窓やドアの鍵閉め、水道やガスの元栓の状態確認など、ご家族やご友人とダブルチェックすることができれば閉め忘れや止め忘れなどを確実に防止することができます。とくに長期旅行などで長く自宅を離れる場合などでも、安心して出かけることができますね。
その4:無理しない
夜間作業などを実施している時、やはり人間ですのでどうしても睡魔に襲われる時があります。そのような場合には、我慢して作業を進めても、集中力の欠如による誤認識や不注意による誤操作などによるミスが発生しやすいです。そのため、作業で重要なデータ等を誤って削除してしまい、取り返しのつかない事態に発展する可能性があります 。ですので、そのような時は無理をせず10分~30分の仮眠をとるようにしています。※お客様の許可の上で仮眠しています。通常業務時に仮眠しちゃダメです(笑)
おトイレや空腹感などもそうなのですが、人間ですので生理的欲求というものが必ず存在します。そして、それらは生きるために必要な機能となりますので、自分で制御することはなかなか難しいです。根性でなんとかしたり、精神力でどうにかしようとするのは難しいです。
ましてや、睡魔に襲われた時などのように、生体リズムに基づいた機能低下状態で作業を続けることは、自分の健康にも良くないですし、作業効率的な面からも有効ではありません。
ですので、眠い時は素直に仮眠する、がベストな対策になると私も考えております。結果的には、その方が効率が上がり、ミスの発生も防げます。
◆実際の取り組み ・深夜作業でどうしても眠いときはメンバー交代と15分の仮眠取得 睡魔を我慢して作業することが無くなり、睡魔による重大ミス(ストレージの初期化など)を防いでいます
日常生活では、資格の勉強をしているような場面で効果があると思います。集中力が途切れ、睡魔に襲われるような時は、時間を決めて休憩したり、仮眠をとるというのは有効な手段ではないでしょうか。
その5:再発防止を考える
ここまで色々と書いてきました。有効な手段があるとはいえ、やっぱりミスしちゃう時は必ずあります。
そのような時には、なぜミスが起こったのか原因を考え、再発しないような対策を作り、実践することで、同じようなミスを防ぐことができるようになります。
ただ、再発防止に力を入れすぎると、結果的に作業負荷ばかりが増えることにもなりますので、バランスが重要になります。世間でも時々話題になりますが、不祥事や事故が起きた際、一生懸命に原因追求と再発防止策を検討します。でも、そのせいで手順が煩雑になったり、審査が厳しくなったり、不便になることも少なからずあります。
再発防止の目的は、あくまでミスを防ぐことにありますので、仕組みやルールはできるだけシンプルな方が良いかなと思う次第です。
◆実際の取り組み ・本番作業のミスは原因分析と再発防止策を策定して同じミスは起こさない 間違って違うコマンドを入力した事例から、その作業は完全自動化バッチを作成することでミスの発生を防いでいます
なお、日常生活で発生したミスについては、何故ミスしたのか?どうすれば防げるか?を常に模索することが重要になります。それを踏まえたうえで、実践可能な対策を実現できれば、もう同じミスは発生しにくくなります。
おわりに
以上、取り組みとして5つの実例を紹介させていただきましたが、いずれも使い古された手法であり、全て当たり前だと思うような基本的な事柄です。とはいえ、基本的な事柄を徹底して行い、習慣化することで、ミスを減らすことは必ず可能となります。私の経験からも、上記手法は効果があると考えております。
人間は生き物ですので、もともとミスをしやすい側面があります。勘違い・思い込み・錯覚・物忘れ・不注意・願望などが要因となることも多いです。そのため、そのような側面があることを理解したうえで、作業に取り組むことが有効ではないかと考えております。ただ、どうしても対策のための工数が発生しますので、バランスを考慮して取り入れていくことが重要かと思います。
ミスを減らすという取り組みは、システム運用では安全工学や信頼設計によるアプローチがありますが、今回紹介させていただいた内容は、どちらかというと認知心理学等の範疇となる認識や行動に着目したアプローチになると考えております。ミスを防止するために人間としての特性を意識した対策を考えていくことも有効ではないでしょうか。
最後まで読んで頂き、ありがとうございました。