Code Suggestions モデル評価ガイド

Code Suggestions 向けの新しい AI モデルを評価するためのガイドライン

このドキュメントは、新しい Code Suggestions モデルを評価するための技術的なハウツーガイドです。

評価テンプレート

モデル評価プロセスを開始する際は、 モデル評価テンプレートを使って Issue を作成する必要があります。

評価基準

Code Suggestions でモデルをサポートする前に、正確性(correctness)レイテンシ(latency) など、いくつかの基準に対してそのモデルを評価する必要があります。 考慮すべき基準のより詳細なリストについては、評価テンプレートを参照してください。

正確性の評価

モデルの正確性を評価するには、ELI5 を使用してください。

レイテンシの評価

モデルのレイテンシを評価するには、ELI5 または ai-model-latency-testerのいずれかを使用してください。

レイテンシで評価する際は、異なるリージョンから来るリクエストを確認することが推奨されます。 テスト対象としてよくあるリージョンは、北米ヨーロッパAPAC です。

レイテンシは以下の方法で評価できます。

  • プロバイダーへ直接
    • Vertex AI や Anthropic などの AI モデルプロバイダーへ直接リクエストを送信します。
  • AIGW を経由してプロバイダーへ
    • AIGW にリクエストを送信し、AIGW がプロバイダーへリクエストを送信します。
    • これを実施するには、事前に AIGW にモデルを実装する必要があります。 AIGW にモデルを実装しても、GitLab ユーザーに対して一般公開しないことも可能です。

評価方法

ELI5 による評価

ELI5(Eval like I’m 5)は、LangSmith を使って AI モデルを評価するための構造化された方法を提供します。 ELI5 リポジトリには評価スクリプトが含まれており、サンプルデータセットと評価結果は LangSmith プラットフォームに保存されます。

ELI5 での評価の実行と分析

以下のガイダンスについて:

GCP インスタンス上での評価の実行

GCP インスタンス上で ELI5 評価を実行することは、自分のインターネット接続や現在の場所に影響されずに一貫したレイテンシ値を取得するのに最適です。 現時点では GCP インスタンスで評価を実行する自動化された方法はないため、手動で行う必要があります。

ガイダンスについては #g_code_creation Slack チャンネルへお問い合わせください。

AI Model Latency Tester による評価

AI Model/Provider Latency Tester は、 さまざまな地理的リージョンのクライアントを使用してサードパーティ AI サービスプロバイダーのレイテンシ評価を自動化し、 地理的に分散したユーザーの体験をシミュレートします。これは、GitLab の AI 機能を支えるべきモデルに関して データドリブンな意思決定を行うことを支援することを目的としています。

詳細なガイダンスやアップデートについては、Latency evaluations の Issue を参照してください。

Load Tester による評価

AI Model/Provider Load Tester は、本番に近いトラフィックをシミュレートし、モデルプロバイダーが実世界のワークロードを処理できることを確認するために設計されています。モデル評価プロセス中に、私たちはモデル向けの負荷テストを作成し、実行する必要があります。

テストスクリプトの追加と実行の手順については、こちらの手順に従ってください。