José Luis Saorín Ferrer
Tokenization & Coherence Study
Quadro sperimentale su come la granularità della tokenizzazione influisce sulla coerenza del discorso. T5-base (BPE) vs ByT5-base (UTF-8) vs mT5-base (Unigram), 6 compiti, ~3.285 stimoli.
https://github.com/joseluissaorin/tokenization-coherence-study