¿Qué son los tokens en el contexto de los LLM?

Los tokens son palabras, juegos de caracteres o combinaciones de
palabras y signos de puntuación generados por modelos de lenguaje
grandes (LLM) cuando descomponen texto. La tokenización es el primer
paso del entrenamiento. El LLM analiza las relaciones semánticas entre
tokens, como la frecuencia con la que se usan juntos o si se usan en
contextos similares. Después del entrenamiento, el LLM usa esos patrones
y relaciones para generar una secuencia de tokens de salida en función
de la secuencia de entrada.