Často slyším: „LLM jenom vybírá slovo, které s největší pravděpodobností následuje za předchozím.“

Na to rád odpovídám otázkou: Napíšu pět slov, která po sobě ještě nikdo nikdy nenapsal, a tedy v trénovacích datech nejsou. Jaké bude šesté? Z čeho model tu pravděpodobnost spočítá, když takovou sekvenci nikdy neviděl? Spousta lidí namítne, že takových pět slov nejde napsat. Samozřejmě jde: „Fialový traktůrek potichu recitoval logaritmy…“ Dobře, potřebujete víc slov? Tak sedm. Nebo dvanáct. Čím delší sekvence, tím jistější, že ji nikdo před vámi nenapsal, a přesto model smysluplně pokračuje.

Pokud by opravdu jen vyhledával, co v datech po dané sekvenci nejčastěji následovalo, musel by na neznámou sekvenci odpovědět nesmyslem. Ale to se neděje. Model pokračuje smysluplně i tam, kde žádná statistika „co po čem bývá“ existovat nemůže. Musel se tedy naučit něco víc.

Musel se naučit generalizovat.

A generalizace – schopnost aplikovat naučené na zcela novou situaci – je přesně to, co modely dělá neuvěřitelně užitečné.

Mimochodem, když mluvíte, taky „vybíráte nejpravděpodobnější slovo“. Začněte větu a sledujte, jak vám mozek nabízí pokračování. Vybíráte z nich. Akorát tomu neříkáte statistika, ale myšlení.