José Luis Saorín Ferrer
InferBox
Servidor self-hosted de inferencia GPU compatible con la API de OpenAI. Embeddings, rerankers, LLMs, STT, image-gen. Micro-batching, decodificación especulativa, multi-GPU consciente.
https://github.com/joseluissaorin/inferbox