Επεξήγηση:
Η tokenization είναι το πρώτο στάδιο σε πολλές εφαρμογές NLP. Κατά τη διάρκειά της, μια ακολουθία κειμένου "σπάει" σε μικρότερες μονάδες (tokens), που μπορεί να είναι λέξεις, χαρακτήρες ή υπομονάδες λέξεων. Τα tokens είναι τα «δομικά στοιχεία» που καταλαβαίνουν τα μοντέλα. Ο τρόπος tokenization επηρεάζει την απόδοση ενός LLM, και πολλές φορές γίνεται με χρήση εξειδικευμένων vocabularies.