OpenAI Releases CLIP — Grounding Vision in Language

OpenAI releases CLIP, a model trained on 400M text-image pairs that learns joint embeddings. CLIP underpins Stable Diffusion and the modern multimodal revolution.

OpenAI Releases CLIP — Grounding Vision in Language

Add comment Cancel reply