José Luis Saorín Ferrer
Tokenization & Coherence Study
Marco experimental sobre cómo la granularidad de tokenización afecta a la coherencia del discurso. T5-base (BPE) vs ByT5-base (UTF-8) vs mT5-base (Unigram), 6 tareas, ~3.285 estímulos.
https://github.com/joseluissaorin/tokenization-coherence-study