José Luis Saorín Ferrer
Tokenization & Coherence Study
Cadre expérimental sur l’impact de la granularité de tokenisation sur la cohérence du discours. T5-base (BPE) vs ByT5-base (UTF-8) vs mT5-base (Unigram), 6 tâches, ~3 285 stimuli.
https://github.com/joseluissaorin/tokenization-coherence-study