fast-inference

Articles Tagged “Fast Inference”

1 article found

DiffusionGemma Generates Text 4x Faster With Open Diffusion-Based Decoding

Google DeepMind released DiffusionGemma, an open 26B model that generates text via parallel diffusion decoding, reaching up to 2,000 tokens per second and running locally.

Dr. Nova Chen★Jun 17, 2026★6 min read