GPT3 nezvládá českou gramatiku a pravopis - několik příkladů, na kterých si jazykový model měnící svět vyláme zuby

Kategorie: Blog Zveřejněno: středa 22. únor 2023 Napsal Kamil Kopecký Vytisknout E-mail

GTP3 je skvělý nástroj, který nabízí širokou paletu využití a která zcela jistě promění (a již proměňuje) svět tak, jak jej známe. Zároveň však má přirozeně své limity, které jsme si ukázali hned na několika příkladech - ať již šlo o generování vymyšlených výsledků vědy a výzkumu s odkazy na fiktivní zdroje či nezvládnuté matematické úlohy. Své rezervy má samozřejmě i v dalších oblastech - a k jedné takové patří také český jazyk - konkrétně česká gramatika a pravopis. A právě na toto téma se zaměřím v dnešním textu.

Co GPT3 jde? Práce s existujícím textem

GTP3 velmi dobře zvládá práci s obsahem textu, tj. tzv. čtení s porozuměním. Přestože funguje “mimozemsky” (tj. nepoužívá způsoby přemýšlení a uvažování, které jsou typické pro člověka, a pracuje především s pravděpodobnostmi, predikcemi, odhadem a matematickými modely), můžeme zjednodušeně říci, že svým osobitým matematickým způsobem chápe obsah textu, ví, jak je text vystavěn, dokáže zachytit důležité myšlenky, dokáže ověřit, zda je naše tvrzení v souladu s obsahem textu, dokáže vygenerovat klíčová slova apod.

V čem selhává? V aplikaci některých gramatických a pravopisných pravidel

Čeština je poměrně složitý jazyk, což potvrdí celá řada cizinců, kteří se z nějakého důvodu začali češtinu učit a ovládali již předtím jiný světový jazyk. Dalo se tedy předpokládat, že zvládnout českou gramatiku bude oříškem i pro neurální sítě. A skutečně, v této oblasti neurální síť chybuje. Nestačí totiž pouze zanalyzovat či vygenerovat text, ale pochopit a použít správně konkrétní pravidlo. Pojďme se tedy podívat na to, co GPT3 nezvládá.

A. Rozpoznat typicky českou “životnost” nezvládá

Na několika příkladech jsem si otestoval, že aktuální verze modelu neumí určit gramatickou kategorii životnost, která je typická pro mužský rod. Chybně je již definice, se kterou model pracuje, logicky jsou pak chybné i odpovědi.

B. Ohebná a neohebná slova jsou oříšek

Ohebná a neohebná slova jsou pro GPT3 oříšek - model opět pracuje s chybnou definicí, kdy k neohebným slovním druhům neřadí příslovce, spojky, částice ani citoslovce, navíc k neohebným řadí “některé zájmena”. Proto také selhává v situaci, kdy má pracovat s příslovci. Schválně jsem použil příklad, ve kterém je jednoznačné příslovce včera, ve kterém nedochází k záměně s podstatným jménem (jako např. ve slově ráno). Podle GPT3 je včera “ohebná příslovce”.

A abych nezapomněl, předložky za neohebné slovní druhy nepovažuje vůbec. Je vůbec zajímavé, že slovo včera považuje za ohebné a slovo dnes za neohebné.

Jakmile se zeptám ve stejné větě pro změnu na ohebná slova, opět selže, tentokrát pro změnu předložku za neohebný slovní druh považuje. A pro změnu je pro něj nyní neohebné i sloveso šel.

C. Určování nevyjádřených větných členů

GPT3 velmi dobře zvládá určování jednoduchých větných členů, které jsou ve větě explicitně uvedeny, neumí však pracovat s větnými členy, které se ve větě přímo nenacházejí - viz např. nevyjádřený podmět. Jakmile má věta nevyjádřený podmět (ONI), podle GPT3 věta podmět nemá a jde podle něj o bezpodmětnou větu.

D. Sloveso v infinitivu jako podmět GPT3 neodhalí

Pokud se ve větě v pozici podmětu objeví sloveso v infinitivu (což je v češtině zcela běžné), GPT3 opět situaci chybně vyhodnotí jako bezpodmětnou větu.

Se slovem “lhaní” již problém nemá a odpovídá správně:

E. Složitější přísudek s příslovečným určením? Pro GPT3 problém

GPT3 má problém také s přísudkem, na který jsou navázány další větné členy - ty považuje za jeho součást. V tomto případě považuje příslovečné určení místa (domů) za součást přísudku.

F. Vedlejší věty - problémy s podmínkami a přípustkami

Pokud zadáte GPT3 rozpoznat přípustkovou větu (tj. děj proběhl, i když mu něco bránilo), zpravidla si s ní neporadí a určí ji jako podmínkovou. Pracuje s chybnými definicemi, chyby dělá u další typů vět vedlejších.

G. Správné tvary slov? Někdy ano, někdy ne

Otestoval jsem si také, zda GPT3 zvládne tvořit správné tvary slov. Zkusil jsem to na typickém českém příkladu MYŠ. Schválně, kolik z vás ví, jaký je správný tvar tohoto slova v 7. pádě množného čísla? Pokud netušíte, klikněte sem. Každopádně GPT3 se domnívá, že je to MYŠI, později opravil své tvrzení na MYŠÍCH, oboje je ale špatně.

Co myslíte, zvládne GPT3 správně určit, ve kterých tvarech zájmena JÁ se píše MĚ a MNĚ? Ne, nezvládne… Tvar zájmena JÁ v 3. pádě jednotného čísla podle GPT3 = MĚ (správně ovšem MNĚ).

H. Vyjmenovaná slova? Neumí…

Samozřejmě mě zajímalo, zda GPT3 zvládá vyjmenovaná slova, tj. to, co se žáci učí někdy od 3. třídy základní školy. Nejdříve jsem se zeptal, zdali GPT3 ví, co je to pravopis vyjmenovaných slov, poté jsem se pokusil chytrou síť přesvědčit, aby mi vyjmenovala vyjmenovaná slova po B. Tak přátelé: baba, babička, babka, bachor, bačkora, bagatel a bahno, to jsou podle GPT3 vyjmenovaná slova.

Didaktická využitelnost

Až budete své žáky či studenty učit pracovat s neurálními sítěmi, určitě s nimi vyzkoušejte podobná zadání, u kterých víte, že je umělá inteligence vyřeší chybně. Poté nechte žáky odhalit, v čem udělal stroj chybu (např. v definici, v algoritmu, nepochopení otázky apod.), a opravit chybné řešení, které nám GPT3 nabízí. Případně se pokuste opravit i původní požadavek (prompt) tak, aby byly výsledky správné. S žáky se můžete také prostřednictvím dalších promptů pokusit neurální síti vysvětlit, v čem přesně udělala chybu. Schválně, dokážete ji přesvědčit, aby chybu uznala?

To vše povede k tomu, že se žáci naučí o generovaných výsledcích zdravě pochybovat a nebudou GPT3 automaticky používat jako zdroj ověřených a stoprocentně pravdivých informací, což pro aktuální verzi skutečně neplatí. Žáci se zároveň naučí klást otázky tak, aby neurální síť poskytovala co nejpřesnější výsledky.

A to je pro dnešek vše, na závěr ještě pár zajímavých odkazů.

Další doporučené texty od externích autorů:

ChatGPT a jeho využití v praxi (Spajk.cz)

Umělá inteligence a zadávání úkolů (Manena.info)

TIP#2359: Můžete použít #AI (#ChatGPT) pro psaní článků? Jak zadávat AI co má dělat? (365 tipů)

Pokud se vám dnešní text líbil, můžete mi koupit virtuální kafe. :)

Zobrazení: 4823

Hodnocení článku:

Hodnocení: 5 z 5. Celkem 3 hlasů

Hledat

Fotky

Pocast Mediální minimum|
UP Teaching Award|
Natáčení pořadu Zkraje|
Karolinum - předání profesorských dekretů|
Karolinum - předání profesorských dekretů|
Karolinum - předání profesorských dekretů|
Podvečerní networking
Pracovní oběd s výzkumníky z týmu University v Granadě
S kolegou Michalem Křížem na University of Granada
S kolegou Michalem Křížem v Alhambře
Kopecký, Gregor, Bek o dezinformacích
Na výletě
S Petrem Pavlem
S Tomášem Etzlerem o médiích v cyklu Svět médií 21
Se Zuzanou Tvarůžkovou v Interview 24
Z natáčení videopodcastu Máma a táta v síti s Ester Geislerovou
Buď safe online (Avast)
S Markem Wollnerem
Školení zaměstnanců O2 v rámci programu O2 Chytrá škola
AFO - Přednáška v Kapli Božího těla
Natáčení dětské verze filmu V síti Víta Klusáka
Přednáška pro Akademii věd ČR
S Václavem Moravcem plánujeme projekt
Interview pro ČT24
V evropské centrále Facebooku v Dublinu
V evropské centrále Facebooku v Dublinu - selfie point
Přednášení v rámci Fake news a dezinformace
Diskuse na Zlínském festivalu
V centrále Google v Dublinu
Workshopy pro studenty z Nizozemí
Návštěva z Indonésie
S Karlem Klatovským z Microsoftu
Workshop s europoslankyní Ditou Charanzovou
S Kovym
Křest knihy Bezpečně na internetu
S Taťánou le Moigne, ředitelkou Google
S Linkou bezpečí
S Martinem Kožíškem přednášíme pro Magdalénu
Přednáška pro Prahu - Nová radnice
S youtuberem Martinem Rotou
Přednášení pro MUNI
Přebírání Evropské ceny prevence kriminality
US Embassy a Barrack Obama
Pořad @nline
Přednášení v Parlamentu ČR
Přednášení v Parlamentu ČR
Přednáška pro policisty v Policejním muzeu Praha
Přednáška v Krakowě
Veletrh UP
Host Radiožurnálu
Shaping Characters
S europoslankyní Šojdrovou
S kolegy ze Španělska
S kolegy ze Španělsk
S Taťánou le Moigne
Webrangers (Google)
Webrangers (Google)
Přednáška pro žáky ZŠ
V síti s Vítkem Klusákem a jeho herečkami
S Jiřím Kubíkem ze Seznam.cz
Snídaně s Novou s Kovym
Sepetná a přednáška pro metodiky prevence
Workshop pro policii v Krnově
Hosté z Číny
S Teddy Sunardim
Přednáška pro pracovníky Vodafone
Přednáška na alma mater
Tým Dětská univerzita 2016
Interview pro ČT s Lukášem Látalem
S Benem Cristovaem a Martinem Kožíškem

GPT3 nezvládá českou gramatiku a pravopis - několik příkladů, na kterých si jazykový model měnící svět vyláme zuby

Co GPT3 jde? Práce s existujícím textem

V čem selhává? V aplikaci některých gramatických a pravopisných pravidel

A. Rozpoznat typicky českou “životnost” nezvládá

B. Ohebná a neohebná slova jsou oříšek

C. Určování nevyjádřených větných členů

D. Sloveso v infinitivu jako podmět GPT3 neodhalí

E. Složitější přísudek s příslovečným určením? Pro GPT3 problém

F. Vedlejší věty - problémy s podmínkami a přípustkami

G. Správné tvary slov? Někdy ano, někdy ne

H. Vyjmenovaná slova? Neumí…

Didaktická využitelnost

Další doporučené texty od externích autorů:

Hledat

Fotky

Sidebar menu

Nejčtenější za poslední rok

Nejčtenější (90 dní)

Můj Twitter (X)

O mně

Novinky

Z blogu

Populární články