José Luis Saorín Ferrer
Tokenisation et textualité
Essai + étude empirique qui repense la tokenisation non comme un prétraitement neutre mais comme l’appareil perceptif du modèle : le seuil qui décide quelles unités de sens existent atomiquement et lesquelles doivent être reconstruites par des opérations coûteuses. Cadre théorique avec Beaugrande & Dressler, Halliday et Langacker ; validation empirique sur T5, ByT5 et mT5 à échelle réduite.
https://github.com/joseluissaorin/tokenization-coherence-study