talkie-MLX

Reimplementación desde cero, en MLX (Apple), del LLM Talkie 13B — un modelo entrenado únicamente con texto en inglés anterior a 1931. El paquete original requería ≥28 GB de VRAM CUDA; este port lo hace correr sobre la GPU de cualquier Mac moderno con Apple Silicon (M1/M2/M3/M4) vía Metal. En un M4 Max el q4 alcanza ~26 tok/s con ~8 GB residentes y ~1,5 s de latencia de primer token.

https://github.com/joseluissaorin/talkie-mlx