原文(日本語に翻訳)
ツール説明から動的コンテンツを削除することで、Bedrock・Vertex・Foundryユーザーのプロンプトキャッシュヒット率を改善
原文(英語)
Improved prompt cache hit rate for Bedrock, Vertex, and Foundry users by removing dynamic content from tool descriptions
概要
Claude Code v2.1.86より、Bedrock・Vertex・Foundryユーザー向けにプロンプトキャッシュのヒット率が向上しました。ツール説明に含まれていた動的コンテンツ(リクエストごとに変化する値)が削除されたことで、キャッシュキーが安定し、同一セッション内でのキャッシュ再利用率が向上します。これによりレイテンシの低下とAPIコストの削減が期待できます。
基本的な使い方
特別な設定は不要です。Bedrock・Vertex・Foundryを通じてClaude Codeを使用していれば、自動的にキャッシュヒット率が改善されます。
bash
# AWS Bedrockを使用する場合の設定例
export ANTHROPIC_API_KEY=""
export AWS_BEDROCK_BASE_URL="https://bedrock-runtime.us-east-1.amazonaws.com"
claude # キャッシュヒット率が自動的に改善される実践例
AWS Bedrockでの設定
bash
# AWS認証情報の設定
export AWS_ACCESS_KEY_ID="your-access-key"
export AWS_SECRET_ACCESS_KEY="your-secret-key"
export AWS_DEFAULT_REGION="us-east-1"
# Claude CodeでBedrockを使用
claude --model anthropic.claude-3-5-sonnet-20241022-v2:0
# v2.1.86以降、ツール説明の動的部分が除去されキャッシュ効率が向上Google Cloud Vertexでの設定
bash
# Google Cloud認証
gcloud auth application-default login
# Vertexエンドポイントの設定
export ANTHROPIC_VERTEX_PROJECT_ID="your-project-id"
export CLOUD_ML_REGION="us-central1"
claude # プロンプトキャッシュのヒット率が向上コスト削減効果の確認
プロンプトキャッシュを活用することで、繰り返しのリクエストにおいてコストを大幅に削減できます:
python
# Bedrock経由でのプロンプトキャッシュ使用例(Python SDK)
import anthropic
client = anthropic.Anthropic()
# キャッシュを有効にしたシステムプロンプト
response = client.messages.create(
model="claude-3-5-sonnet-20241022",
max_tokens=1024,
system=[
{
"type": "text",
"text": "You are a helpful assistant...",
"cache_control": {"type": "ephemeral"}
}
],
messages=[{"role": "user", "content": "Hello!"}]
)
# usage.cache_read_input_tokens でキャッシュヒット数を確認
print(f"キャッシュヒット: {response.usage.cache_read_input_tokens}")
print(f"キャッシュミス: {response.usage.cache_creation_input_tokens}")注意点
- この改善はBedrock・Vertex・Foundryユーザーに特に恩恵があります(直接APIユーザーも対象)
- キャッシュヒット率の向上により、長いシステムプロンプトを使用するセッションでのコスト削減効果が大きくなります
- プロンプトキャッシュはAnthropicがサポートする一部のモデルでのみ利用可能です
- 動的コンテンツの削除はツール説明の機能には影響しません