「大規模分散システムにおけるCMS活用事例」
CMS概要
分散システムのキャパシティ管理において、多数のシステムから構成される大規模(数百台~千台超)環境においてよく見受けられる課題として、以下のような項目が挙げられます。
(1)人手が足りない
システムごとに専任の担当者を用意できない
(2)時間がない
他業務との掛け持ちによりシステムあたりにかけられる工数が限られてしまう
(3)手法が分からない
管理者交代時の引継漏れによるスキル低下・新技術への追従が困難
(4)費用がかけられない
人的資源・管理工数等のコストが効果に見合わない
弊社で運用を担う分散システムにおいても、以上のような課題が見受けられました。これに対する対応策として、弊社で出した結論の一つが「キャパシティ管理のアウトソース」でした。IIM社のキャパシティ管理サービス(CMS:Capacity Management System)を利用することで、これらの課題を解決できると考えました。
CMSとは、大規模サーバのパフォーマンスデータ計測から現状分析および問題評価、システムプランニングまでの統合的な管理を提案・実施するIIM社のサービスです。CMSは以下のステップで導入・運用を行います。
STEP1:初期導入フェーズ
まずは、キャパシティ管理を行うための環境構築をユーザとIIM社の協業で行います。
STEP2:運用フェーズ
運用段階では、ES/1の維持管理と技術サポート、ならびに各システムの特性を考慮した
キャパシティ・リソース観点での定期的なレポートの作成・提供をIIM社に行っていただきます。
レポート作成については、一ヶ月単位でサーバの情報をIIM社へ提供し、担当SEの方に詳細な
評価にて異常があった際には報告書にまとめて納品していただきます。報告書は対面式の
定例会においてもご報告いただき、事象に対する確認事項がある場合はその場で質疑応答を
行い解決に向けた対応を協議します。報告を受けた後は、弊社にてCMS担当と各システム管理者
が連携して事象の確認、原因の把握、システムのチューニングを行います。場合によっては、
IIM社の技術者からご協力を仰ぐことも可能です。
図1:CMS概要

CMS活用事例
CMSの導入経緯についてご紹介します。弊社において維持運用を行う分散サーバは、オープン化の流れに併せて1990年代後半より急速に増加してまいりました。当初は各システム独自の(各システムの要件に合わせた)キャパシティ・リソース管理を行っておりました。しかし、システムによって性能データの収集状況、管理方法にばらつきがありました。
この課題に対する解決のため、2004年頃よりES/1を導入してデータ収集の標準化を行う取り組みを開始しました。しかし、ライセンスの調達コストが高く導入対象が高重要度のシステムのみに限定せざるを得ず、またデータの活用は継続してシステム管理者に依存するしかない、といった問題がありました。そこで、2006年にCMSを導入し、データ収集に加えて評価までを標準化しました。
CMSを運用する上での弊社とIIM社の役割分担は下図の通りです。
IIM社にはシステム全体を横串で管理・分析・評価を行っていただきます。その一方で各システム担当者は、日次でのモニタリングなどのシステムの維持管理業務全般を行います。
この二者間をスムーズに連携させるために、CMSの維持管理窓口を新設し、利用者の支援や双方のやり取りの仲介を行う体制としました。
その結果として、各システムの詳細を熟知している管理者とパフォーマンス管理のプロフェッショナルであるIIM社の両者の相乗効果を生み出すことで、品質の向上やコスト効率の向上が見込まれると考えました。
図2:役割分担

CMSを実現するためのシステム環境は、以下のように構築いたしました。
図3:環境構築

また、ES/1の導入対象サーバの選定基準についても整備しました。お客様の環境では、ITシステム基盤の全体最適のために、システム開発・構築における採用製品や技術要件などを標準化したガイドラインを整備されておりました。このガイドラインへ「キャパシティ管理」という項目を追加いただき、ES/1の導入対象とすべきサーバ要件の標準化を図りました。
弊社におけるCMSは4種類のサービスにより構成されています。
【サーバリソース情報収集】
プラットフォームやOS、ミドルウェアに依存しないデータ収集の一元化を行うため、ES/1 NEO CSシリーズを用いて、データ収集を行っています。収集済みデータは長期保管し、システム更新・老朽化対応の際にデータを用いたプランニングを可能としています。
【サーバリソース情報提供】
利用者(システム管理者)のニーズに合わせて必要な情報を随時提供しています。
収集したデータはWebサイト(PWS)にて常時、社内LAN内で閲覧できる環境を整備しています。PWSでは代表的なデータ項目のみを公開しているため、より詳細に障害などを調査したいといった場合は、CMS窓口担当者に依頼いただければ、3営業日以内に利用者に必要なデータ提供する体制も整えています。
【月次評価・報告書作成】
IIM社にて毎月一回評価を実施いただき、報告書の納品、報告会の開催を実施いただいております。CMS窓口担当では報告結果を各システム管理者と共有し、事象の詳細確認および対応実施を依頼しています。システム管理者からフィードバックがある際には、次回以降の評価に反映していただくため、IIM社とも情報共有しております。このように第三者の目線から見た問題の評価およびトラッキングを行っています。
【個別システム評価】
障害調査やシステムサイジングを行いたい際に、弊社での対応に対する裏付けを行うためにIIM社にて個別システム評価を行っていただくことをメニュー化しています。担当者の依頼に基づき、CMS窓口がIIM社へ報告書作成を依頼します。ES/1の収集データを超えた深堀が行いたい場合は、追加データを担当者より提供することで事象に合わせた評価を行うことができます。当事者であるシステム管理者をトリガーとした問題の解決が可能になります。
CMSを活用した効果は3点あります。
(1)トータルサービスによる効率化
キャパシティ・パフォーマンス管理の専門家であるIIM社のご協力のもと、実際の運用で管理者が
利用することによる相乗効果が生まれました。また、データ収集を一元化できたことも大きな効果
と言えると考えております。
(2)システム安定性・障害調査性の向上
データ収集の手法の統一化、対象サーバの基準整備により、「そもそもデータ収集をしていない」
という状況を大幅に改善しました。また月次評価を行うことで、システム管理者が見落として
いた異常な状況を検知したケースも見受けられました。
結果として、障害を未然に防ぎ、安定性・可用性という観点で一定の効果を上げたと考えており
ます。月次評価の実績としては月間約10件の指摘事項を頂戴しており、月平均1件程度の障害
未然防止を始めとし、障害復旧、リソース改善などに寄与している結果が得られております。
(図4参照)
(3)キャパシティ・リソース管理コストの可視化
アウトソーシングにより運用業務の一部をオフロードすることで、管理コストが明確になりました。
図4:指摘事項の実績

課題と解決への取り組み
5年間のCMS運用から得られた課題、新たなニーズとその解決に向けた取り組みを4点ご紹介いたします。
(1)データ利用方法の標準化
CMS窓口担当としては、利用者が公開情報をどのように活用しているのかが把握できていない
という問題がありました。この問題の解消に向け、まずは収集されたデータを活用し易い環境を
整えることとしました。一般的なサーバ性能評価の手順書をIIM社に整備いただき、どのような
手順でES/1のデータを確認し、実機で調査を行うかといった標準化された手順の公開を試験的に
始めております。
(2)月次評価よりも早いアラートアクション
月次評価は障害未然防止などに役立っている半面、事象の発生から時間が経っており既に対応
が完了しているケースも多々ありました。そこで、システム担当者が月次評価より前に検知・
解析できるプロセスの導入に取り組んでおります。
(3)仮想サーバ環境への対応
お客様の環境では近年VMwareを利用したサーバ仮想化を進めております。仮想サーバ特有の
リソース管理をどのように行うべきかという課題がありました。またvCenterServerではある程度
の性能情報の取得管理は可能ですが、過去のデータはサマライズされる仕様となっております。
そこで、vCenterServer経由でのデータ収集を行うと共に、四半期に一度のIIM社による評価を
取り入れ、仮想サーバのリソース管理の充実化を図っております。
(4)インフラコストの最適化・可視化
仮想サーバの集約率を上げるためには、リソースの最適配分が重要です。そこで、仮想マシン
への過剰なリソースアサインを可視化し、IIM社より定期的にご報告いただく形としました。また、
ガバナンス強化のため、リソース使用率ベースでのインフラコストの可視化についても検討を
進めております。
まとめ・今後の展望
2006年にCMSを導入して、データ収集から評価までの標準化を推進してまいりました。5年間の運用の中で、環境の変化や新たな課題が出てきたため、現在はより活用を深化することでニーズに沿った軌道修正を行ってまいりました。
今後も継続して新技術へのキャッチアップとサービスの見直しを予定しております。また、可視化されたコストの最適化を推進し、低コストで必要充分なサービスへシフトすることで、分散システムの全体最適化に向けた引き続き取り組んでいきたいと考えております。
図5:今後の展望

|