KVCache Hit Rate Calculator

📊 Model Configuration

Model Layers:

Number of Key-Value Heads:

Head Dimension:

Model Data Type:

KVCache Data Type:

Number of Model Parameters (B):

Available Memory (GB):

Average Conversation Length (turns):

New Conversation Arrival Rate (conversations/second):

Within Conversation Interval (seconds):

Average Sequence Length (tokens):

Hit Rate-
%

req/s

Memory per Token: -

Maximum Cached Tokens: -

Active Conversations: -

Cache Hits per Second: -

Model Memory Usage: -

Cacheable Conversations: -

Click the Calculate button to get optimization suggestions