José Luis Saorín Ferrer
Tokenizzazione e testualità
Saggio + studio empirico che ripensa la tokenizzazione non come pre-elaborazione neutra ma come l’apparato percettivo del modello: la soglia che decide quali unità di significato esistono atomicamente e quali devono essere ricostruite con operazioni costose. Quadro teorico da Beaugrande & Dressler, Halliday e Langacker; validazione empirica su T5, ByT5 e mT5 a scala ridotta.
https://github.com/joseluissaorin/tokenization-coherence-study