talkie-MLX

Réimplémentation depuis zéro, en MLX (Apple), du LLM Talkie 13B — un modèle entraîné uniquement sur du texte en anglais antérieur à 1931. La version originale exigeait ≥28 Go de VRAM CUDA ; ce port le fait tourner sur le GPU de tout Mac moderne à puce Apple Silicon (M1/M2/M3/M4) via Metal. Sur un M4 Max le q4 atteint ~26 tok/s avec ~8 Go résidents et ~1,5 s de latence du premier token.

https://github.com/joseluissaorin/talkie-mlx