GroupedQueryAttention¶

Dot-product attention sharing keys and values across heads.

Abstract Signature:

GroupedQueryAttention(embed_dim: int, num_heads: int, num_kv_heads: int)

API: —

Strategy: Custom / Partial

API: keras.layers.MultiHeadAttention

Strategy: Direct Mapping

API: flax.nnx.MultiHeadAttention

Strategy: Direct Mapping

API: paxml.layers.GroupedQueryAttention

Strategy: Direct Mapping