「私たちのグループでは故障対応を『監視・分析・対応』の3ステップに分け、その対応技術の高度化に向けた研究を進めています」と渡辺は概要を話す。今日、ネットワーク性能が日増しに高くなっていくと同時に、劣化リスクに対する原因が多様化してきている。例えば仮想化技術により機能が複雑化したり、トラヒック変動が激しくなることで、いつどのような障害が発生するかが読みづらくなっている。原因が多様化するということは、トラブルシューティングが困難になっているということでもある。
しかし一方でサービスに対する要求水準は高く、故障が発生してから原因を探り、対応策を練り、そして復旧を行っていくのでは、時間がかかりすぎてしまう。そこで期待されるのが、故障対応技術の高度化だ。
「機械学習やAIを利用し、ネットワーク内のシステムログやあるいは外部、例えばSNSなどの情報を分析して、サービスの性能劣化などを予見的早期に検知して対応することができれば、故障対応をより高度に行うことが可能になります」
故障対応の高度化をめざすプロジェクトがスタートしたのは5〜6年前。当初は自動分類技術などを駆使して、膨大なシステムログをより簡便に参照できるようにしようという発想が出発点だった。そこから、ログを数値化し、他のログと組み合わせられれば、機械学習によってより高度な対応が可能になる。そうした観点から挑戦がスタートした。
目に見えない故障を
AIが見つけ対応します
- #Iot/AI
- #機械学習
- #ネットワークサービスシステム研究所
ネットワークサービスシステム研究所
渡辺 敬志郎、中野 雄介、池田 泰弘、
松尾 洋一、田尻 兼悟
AIによるネットワークオペレーション高度化
「形あるものはいつか壊れる」
それはNTTグループが事業に用いている多様な機器やシステムについても例外ではない。
この故障対応をAIに担ってもらうことができたらどうだろうか。
今まで、人間の目に映るレベルまで影響が大きくならなければ見つからなかった故障も、その予兆段階で発見することができ、そして自動で復旧まで対応する。そうすることができれば、サービスの提供は今以上に停滞を避けることが可能になり、システムは安定的に稼働する。
渡辺を中心としたグループは今、故障対応の高度化に向けて研究を重ねている。
01.機械学習を利用した故障対応の高度化技術
02.あらゆる数値の相互関係を取り入れる
『監視・分析・対応』と3つに分けられたステップで最初の『監視』を担当するのが池田泰弘と田尻兼悟の二人だ。監視とはすなわち故障、あるいはその予兆を早期に検知する技術のこと。現在の故障検知は一般的にネットワーク機器やサーバ機器が蓄積する性能やリソース使用率を表す数値に対して、個々の要素にしきい値を設定して行うのが一般的だ。しかし池田や田尻は、大量・多様な数値の正常状態における相互関係性をAIに学習させ、その関係性の変化から予見的早期に故障を検知する手法の研究開発を進め、「症状」が出る前の故障を検知できるような仕組みに挑戦している。
「現時点で故障を確認できるのはしきい値を越えるなどある程度症状が進行してからです。けれど、人間が気づかない故障の予兆を機械が報告できるようにしたいと考えています」と池田は話す。が、果たして人間が気づいていないものが本当に故障の原因となる予兆なのか、それともAIの勘違いなのか。それを測る方法もむずかしい。
「今は多様な手法にチャレンジして試行錯誤している最中です。いろいろ試していくうちに、手法そのものに愛着が湧いてしまうこともありますね」(田尻)
ゆくゆくはこの検知システムだけでも、サービス化される可能性もある。従来の手法では見つけることのできなかった障害の種を見つけられるように、これまでになかった発想をもとに研究が進められている。
03.機械自身が分析手法を調整
検知された情報を『分析』し、障害の原因となる箇所を特定するといった技術を確立するのが松尾洋一の役割だ。特にチャレンジするのは、事前に学習した因果関係に頼りすぎることなく、AI自身が分析手法をアジャストしながら、その時点で目の前にある状況を分析し、特異的な故障にも対応し得る同時性の高い分析技術の開発。
「二度と起きないような特異なケースにも、状況をAI自身が見極めて自動で対応できるような技術の開発に取り組んでいます。目の前だけを見ていたのでは過去の因果関係をほぼ無視することになってしまうし、過去に頼りすぎては特異なケースに対応できない。そのバランスの見極めにも工夫をこらしています」(松尾)
人間には予測もつかないような事態にも機械が自分で分析手法をアジャストしながら対応し、その上で適確な分析結果を導き出せるような絶妙な技術に日々、向き合っている。
そして具体的に故障に『対応』していく技術を高めるには、よりリアリティの高い状況が必要となる。中野雄介はプロジェクト全体を見渡しながら、実戦に近い環境を用意し、長期安定的に技術を稼働させるための課題を見出し、高度化技術全体のクオリティ向上に汗を流す。
「将来的な使いやすさまで視野に入れて、さまざまな環境への適応策を開発しています」(中野)
医療技術の発展がこれまで見出せなかった病気の発見を可能にしたように、渡辺らの研究はこれまで見出せなかったシステム故障の発見を可能にし、さらに自動で対応できる未来も見据える。チームを牽引する渡辺は「まずは現場の故障対応オペレーターのサポートができるような技術を確立する。そして最終的には、あらゆる故障に多様的に対応し、故障対応をすべて自動化できる未来につなぎたいと考えています」と未来を見据えている。
PROFILE
- 渡辺 敬志郎
- 2004年入社。日本全国に通信サービスを展開するNTTのスケール感にひかれ、NTT R&Dに入社。長く通信のQoE(体感品質)定量化の研究を続けてきた。
- 中野 雄介
- 2005年入社。Web系の研究、NGN・分散DBの商用開発、大学との将来ネットワークについての研究を経て、現在、故障対応技術高度化の主に実用化に携わっている。
- 池田 泰弘
- 2010年入社。TCP品質分析、無線セル最適設計の研究を経て、現在は故障対応技術高度化の検討に携わっている。
- 松尾 洋一
- 2015年入社。入社以来、故障対応高度化のためのデータ分析や研究に携わっている。
- 田尻 兼悟
- 2017年入社。入社以来、機械学習を利用した故障対応の高度化技術の研究に取り組んでいる。
※記事本文中の研究所名や社員の所属組織などは取材時のものであり、
旧研究所名の場合がございます。