talkie-MLX

Reimplementazione da zero, in MLX (Apple), del LLM Talkie 13B — un modello addestrato esclusivamente su testo inglese precedente al 1931. Il pacchetto originale richiede ≥28 GB di VRAM CUDA; questo port lo fa girare sulla GPU di qualsiasi Mac moderno con Apple Silicon (M1/M2/M3/M4) via Metal. Su un M4 Max il q4 raggiunge ~26 tok/s con ~8 GB residenti e ~1,5 s di latenza del primo token.

https://github.com/joseluissaorin/talkie-mlx