José Luis Saorín Ferrer
Tokenización y textualidad
Ensayo + estudio empírico que reconceptualiza la tokenización no como un preprocesamiento neutro, sino como el aparato perceptivo del modelo: el umbral que decide qué unidades de significado existen atómicamente y cuáles deben reconstruirse mediante operaciones costosas. Marco teórico desde Beaugrande & Dressler, Halliday y Langacker; validación empírica sobre T5, ByT5 y mT5 en arquitecturas de escala reducida.
https://github.com/joseluissaorin/tokenization-coherence-study