Mallit ja tekniikka

Token

Token tarkoittaa tekstin palaa, joina kielimalli käsittelee kaiken tekstin. Token voi olla sana, sanan osa tai merkki: englannin yleissana on usein yksi token, mutta suomen taivutetut sanat pilkkoutuvat tyypillisesti kahdeksi tai kolmeksi. Tokenit ratkaisevat käytön hinnan ja kontekstirajat, sillä mallien hinnoittelu ja rajoitukset lasketaan tokeneissa.

Miksi tokenit vaikuttavat hintaan?

API-käytössä maksat syötetyistä ja tuotetuista tokeneista erikseen, ja hinnat ilmoitetaan miljoonaa tokenia kohden. Esimerkiksi Clauden Sonnet-mallin hinta on 3 dollaria miljoonalta syötetokenilta ja 15 dollaria miljoonalta tuotostokenilta. Suomi on tokenisoinnissa englantia kalliimpaa, koska sama asia vaatii enemmän tokeneita. Käytännön merkitys on silti usein pieni: tyypillinen sähköpostin mittainen tehtävä maksaa API:ssa sentin murto-osia.

Paljonko tokeneita teksti sisältää?

Karkea muistisääntö suomelle: yksi token on noin 2–3 merkkiä eli tavallinen A4-sivu tekstiä on suuruusluokkaa tuhat tokenia. Tarkan määrän näkee mallitoimittajien tokenilaskureilla. Tokeniraja selittää myös, miksi pitkä keskustelu alkaa "unohtaa" alkuaan: kun konteksti-ikkuna täyttyy, vanhinta sisältöä jää pois.

Lähikäsitteet

Syvenny aiheeseen

Usein kysytyt kysymykset

Mikä on token?

Token tarkoittaa tekstin palaa, joina kielimalli käsittelee kaiken tekstin. Token voi olla sana, sanan osa tai merkki: englannin yleissana on usein yksi token, mutta suomen taivutetut sanat pilkkoutuvat tyypillisesti kahdeksi tai kolmeksi. Tokenit ratkaisevat käytön hinnan ja kontekstirajat, sillä mallien hinnoittelu ja rajoitukset lasketaan tokeneissa.

Ylläpitää Sampsa Sironen, Co-Founder & CEO

Haluatko, että tiimisi osaa nämä käytännössä?

Koulutamme tekoälyn käytön teidän työtehtävillänne, ei kalvoilla.

← Kaikki sanaston termit