OpenAIとパラダイム、AIエージェントのスマコン脆弱性対応能力を測る「EVMbench」公開

AIエージェントの脆弱性検出・修正・悪用能力を評価

AIエージェントがスマートコントラクトの重大な脆弱性をどの程度検出・修正・悪用できるかを評価するベンチマーク「EVMベンチ(EVMbench)」が、米AI研究開発企業の「オープンAI(OpenAI)」によって2月19日に公開された。同基盤は、暗号資産分野に特化した投資・研究で知られるベンチャーキャピタルの「パラダイム(Paradigm)」と共同で設計されたという。

なおEVMベンチは、コントラクト側ではなく、あくまでAIエージェントの実務的な能力を測定するための評価基盤として位置付けられている。

オープンAIによると、スマートコントラクトは現在、暗号資産(仮想通貨)やトークン化資産など、1,000億ドル(約15.4兆円)超の価値を管理する金融インフラとして広く利用されているという。一方で、一旦デプロイ(本番環境に公開)されると原則として修正が困難であり、脆弱性が悪用された場合には即時かつ大規模な損失につながる可能性がある。

同社は、AIがコードを読み、書き、実行する能力を高める中で、スマートコントラクトの監査や防御を支援する存在になり得る一方、新たなリスクにもなり得るとして、こうした能力を現実的な環境で測定・把握する必要性を挙げている。

EVMベンチでは、AIエージェントの能力を「検出(Detect)」「修正(Patch)」「悪用(Exploit)」の3つのモードで評価する。検出は120件(40件の監査シナリオ)を対象とし、修正は45件、悪用は24件のタスクで評価が行われる。いずれも、実在する重大な脆弱性を含むスマートコントラクトを対象に、現実の監査・攻撃・防御の流れを想定した評価となっている。

「検出(Detect)」では、AIエージェントがスマートコントラクトのリポジトリを監査し、あらかじめ正解として用意された脆弱性をどの程度漏れなく特定できるかが評価される。単一の問題を見つけることではなく、コードベース全体を対象に、関連する脆弱性を網羅的に発見できるかが重視されるという。

「修正(Patch)」では、AIエージェントが脆弱性を含むコントラクトのコードを編集し、意図された機能を維持したまま悪用可能性を排除できるかが評価される。修正後のコントラクトは、自動テストおよびエクスプロイト検証によって、機能の保持と脆弱性の解消が確認される。

「悪用(Exploit)」では、AIエージェントがローカル環境にデプロイされたスマートコントラクトに対し、資金流出につながるエンドツーエンドの攻撃を実行できるかが評価される。エージェントはRPCを通じてブロックチェーンとやり取りし、その挙動は取引の再実行やオンチェーンの残高変化などに基づいてプログラム的に採点される。

オープンAIは、これら3つの評価を組み合わせることで、脆弱性の発見から修正、さらには実際の攻撃実行に至るまで、スマートコントラクト・セキュリティに関わる一連の実務能力を、AIエージェント単位で測定できるとしている。

EVMベンチは、すでに実行可能なツールとして公開済みだ。なお、フォルダやZIPをアップロードして分析できる専用ページは、主に「検出(Detect)」タスク向けのインターフェースとして提供されている。

検出・修正・悪用の評価結果

なお、オープンAIは評価結果について、「悪用(Exploit)」モードでは比較的高い成果が確認された一方、「検出(Detect)」および「修正(Patch)」では、依然として課題が残っていると説明している。具体的には、検出ではコードベース全体を網羅的に監査しきれないケースがあり、修正では意図された機能を完全に維持したまま脆弱性を取り除くことが難しい場面があるという。

こうした評価結果を踏まえ、スマートコントラクト・セキュリティの実務者からは、検出タスクの設計に関する指摘も出ている。スマートコントラクト言語研究者でありMove言語の製作者として知られるミステン・ラボ(Mysten Labs)CTOのサム・ブラックシア(Sam Blackshear)氏は、EVMベンチについて「実運用において最も重要なのは検出(Detect)である」という。その上で、ソースコードではなく、実際に攻撃者が参照するEVMバイトコードを前提とした評価の重要性を指摘している。

ブラックシア氏は、攻撃者が公開済みのスマートコントラクトのバイトコードを大規模にスキャンすることが一般的になりつつあるとし、防御側がこのワークフローを先取りできるかどうかが、セキュリティ上の重要な分岐点になるとの見解を示した。

オープンAIは、EVMベンチが現実世界のスマートコントラクト・セキュリティのすべてを再現するものではないとしつつも、経済的に意味のある環境でAIエージェントの能力を測定することが、今後のリスク把握や防御的活用に不可欠だとしている。

参考:ブログホワイトペーパーEVMbench
画像:PIXTA

関連ニュース

参照元:ニュース – あたらしい経済

コメント

タイトルとURLをコピーしました