José Luis Saorín Ferrer InferBox Serveur d’inférence GPU auto-hébergé compatible avec l’API OpenAI. Embeddings, rerankers, LLMs, STT, image-gen. Micro-batching, décodage spéculatif, conscient du multi-GPU. https://github.com/joseluissaorin/inferbox