429エラーを回避する：OpenAI APIのレート制限（Rate Limit）への対処法

エラーメッセージ

通常、リリースの準備が整った瞬間に発生します。ログが突然次のようなエラーで埋め尽くされます。

openai.RateLimitError: Error code: 429 - {'error': {'message': 'Rate limit reached for requests', 'type': 'requests', 'param': None, 'code': 'rate_limit_exceeded'}}

OpenAIは、Tokens Per Minute (TPM)、Requests Per Minute (RPM)、またはRequests Per Day (RPD) のどの制限に達したかを指定する場合もあります。例えば、Tier 1アカウントでGPT-4oを呼び出す場合、30,000 TPMおよび500 RPMに制限されています。

なぜ突然発生するのか

昨日まで動いていたコードが今日失敗する場合、おそらく次の3つの問題のいずれかが原因です。

ティア制限： 低使用ティア（Tier 1など）に設定されており、トラフィックが急増した。
残高不足： プリペイドクレジットが$0.00になった。この場合、OpenAIは402 (Payment Required) ではなく429エラーを返すことがよくあります。
制御されていない並列処理： 並列スレッドや非同期タスクを大量に起動した。これにより、即座にRPM制限に達します。

ステップバイステップの解決策

1. 支払い状況と使用ティアを確認する

コードを書き換える前に、OpenAI Billing Dashboardを確認してください。次の2点を確認する必要があります。

クレジット残高： アカウントに少なくとも$5.00以上の残高があることを確認してください。残高がなくなると、APIは即座に停止します。
使用ティア： 制限値を確認してください。Tier 1アカウントのクォータは非常に厳しく設定されています。Tier 2に移行するには、通常、少なくとも$50を入金し、7日間待機する必要があります。ティアのアップグレードは自動的に行われますが、システムに反映されるまで最大48時間かかる場合があります。

2. 組み込みのリトライ機能とバックオフを使用する

429エラーを処理する最も信頼性の高い方法は、指数バックオフ（Exponential Backoff）です。これは、アプリが再試行する前に少し待機し、再度失敗した場合はさらに長く待機することを意味します。

Python OpenAI SDK (v1.0+) は一部のリトライを自動的に処理しますが、本番環境では制限を増やすべきです。

from openai import OpenAI

# max_retriesをデフォルト（2）から5に増やす
client = OpenAI(
    max_retries=5, 
    api_key="your_api_key_here"
)

try:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": "Summarize this report."}]
    )
except Exception as e:
    print(f"API failed after 5 attempts: {e}")

より詳細な制御が必要な場合は、backoff ライブラリを使用してください。カスタムロジックに最適です。

import backoff
import openai

@backoff.on_exception(backoff.expo, openai.RateLimitError)
def call_with_backoff(**kwargs):
    return client.chat.completions.create(**kwargs)

# 1秒、2秒、4秒、8秒...と自動的にリトライします

3. トークン消費の最適化

リクエスト数ではなく、トークン制限に達している場合があります。長いプロンプトや大きな max_tokens 設定は、クォータを急速に消費します。

max_tokensを絞る： 1段落の回答しか必要ない場合に、4,000に設定しないでください。
ローカルでカウントする： 送信前に tiktoken を使用してプロンプトのサイズを確認します。プロンプトが大きすぎる場合は、切り詰めるか、リクエストをスキップして他のタスクのためにクォータを節約します。
タスクをキューに入れる： 1,000行のデータを処理する場合、単純な for ループは使用しないでください。CeleryやBullMQなどのタスクキューを使用して、速度を毎秒5リクエストなどに制限（スロットリング）してください。

4. チーム向けの集中型スロットリング

同じAPIキーを使用する5つの異なるサーバーがある場合、それらは衝突します。全員を制御するために、通常はRedisを使用した共有カウンターが必要です。

import time
import redis

# Redisベースのシンプルなゲートキーパー
r = redis.Redis(host='localhost', port=6379)

def rate_limited_request():
    while r.get("openai_lock"):
        time.sleep(0.2) # ロックが解除されるのを待機
    
    r.setex("openai_lock", 1, "locked") # 他のリクエストを1秒間ブロック
    return call_openai_api()

修正の確認方法

うまくいくことを願うだけでなく、意図的に制限を発生させてエラー処理をテストしてください。

一度に20個のリクエストを送信するスクリプトを実行します。
ログを監視します。アプリがクラッシュするのではなく、バックオフ・ロジックによって実行が一時停止されることを確認してください。
Usage Dashboardを確認します。成功したリクエストは緑色のバーで表示され、429エラーは赤色で表示されます。

メンテナンスのヒント

ヘッダーを監視する： OpenAIはすべてのレスポンスで x-ratelimit-remaining-requests を送信します。これらの値をログに記録して、制限にどれくらい近づいているかを確認してください。
環境を隔離する： 本番用のAPIキーをテストに使用しないでください。バグのある開発スクリプトがクォータを使い果たし、稼働中のサイトを停止させる可能性があります。
Batch APIに切り替える： すぐに回答が必要ない場合は、Batch APIを使用してください。料金が50%安くなり、制限も大幅に緩和されますが、完了までに最大24時間かかる場合があります。