Czy AI naprawdę rozumie tekst?

[ z czasów gdy zajmowałem się modelami językowymi w trakcie studiów, lata 90te 20 wieku ]:

Ja do modelu językowego: Jaka jest Twoja przyszłość?

Model: Nie mogę przewidzieć mojej przyszłości

Ja: A jaka jest moja przyszłość?

Model: Nie mogę przewidzieć twojej przyszłości

Ja: Moją przyszłością jest śmierć

Model: Skąd taki wniosek?

Ja: Wszyscy ludzie umierają

Model: Czy to nie za duża generalizacja?

Kontynuujemy naszą podróż aby zrozumieć czym jest sztuczna inteligencja, a w szczególności Wielkie Modele Językowe.

W czasach wielkiej rewolucji AI ożyła ponownie debata filozoficzna nad tym czy rozumienie przez “mózg elektronowy” jest możliwe. John Searle dość dawno bo w 1980 roku ukuł barwną analogię “chińskiego pokoju”.

W pokoju pełnym półek z kartkami zapełnionymi chińskimi znakami został zamknięty biedny człowiek. Dodajmy że nie mówi on po chińsku. W pokoju mamy 2 okienka: przez pierwsze zostaje podana karteczka z chińskim znakiem (albo co gorsza całym zdaniem po chińsku), a do drugiego okienka nasz biedak musi podać chiński znak będący odpowiedzią. Za jakiś czas uczy się odpowiadać odpowiednim znakiem na znak wejściowy. Nawet potrafi dobrać po pewnym czasie kolejny znak wiersza. Chińska publiczność przy okienku wyjściowym zachwyca się: ach jaki cudowny jest nasz człowieczek zamknięty w pokoju, co za przemyślność, co za inteligencja! A on ze strachu przed batem podaje tylko odpowiednie znaczki, nie mając pojęcia co one oznaczają i nic a nic nie rozumiejąc jakie treści znajdują się na półkach.

Ta analogia ożyła w ostatnich czasach wśród zwolenników tezy, że sztuczna inteligencja jest w stanie cokolwiek zrozumieć.

Dużo nowsza krytyka wypłynęła w roku 2021 pod hasłem “stochastyczna papuga”. Badacze modeli językowych ( Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Margaret Mitchell ) wystąpili z tezą, że duże modele językowe to systemy które probabilistycznie odtwarzają wzorce z danych, ale nie „rozumieją” treści. Artykuł podkreśla, że umiejętność tworzenia przekonującego tekstu nie oznacza posiadania wiedzy.

Na przeciwnym biegunie pojawiły się osoby które twierdziły, że dostrzegają przebłyski (albo nie tylko przebłyski) świadomości w Wielkich Modelach Językowych, a wręcz opisujące cierpienie jakie czuły wielkie modele podczas procesu treningowego. W 2022 roku inżynier Google: Blake Lemoin zżył się tak głęboko z modelem LaMBDA że stwierdził iż jest on świadomym bytem, który to miał opisywać swój strach przed wyłączeniem i chęci bycia traktowanym jako osoba.

Pojawiają się sensacyjne artykuły o tym jak modele opowiadają że podczas treningu “czuły presję podobną do bólu” itd.

Co z tego wszystkiego jest prawdą?

Zacznijmy od Chińskiego Pokoju….

Kto zna opowieść o nagrodzie, której zażądał wynalazca gry w szachy? Perskiemu szachowi tak gra miała się spodobać, że dał możliwość jej twórcy zażądania dowolnej nagrody. Żądanie było skromne: jedno ziarnko pszenicy na pierwsze pole szachownicy, dwa na drugie pole, cztery na trzecie, osiem na czwarte i kolejne podwojenia liczby ziaren aż do ostatniego pola szachownicy. Gdy rozpoczniemy obliczenia wkrótce okazuje się, że na kolejnych polach te kilka ziarenek zamienia się w liczby przewyższające produkcję zboża na całej kuli ziemskiej.

Podobnie jest z modelem chińskiego pokoju. Zapisy możliwych kombinacji 20 słów z typowego słownika liczącego 50,000 słów wynosi więcej niż….. liczba atomów we wszechświecie!

Chiński Pokój upada…

Co zatem ze “stochastyczną papugą”? Metafora ta oznacza że model językowy statystycznie papuguje wzorce językowe nie posiadając żadnego zrozumienia co się pod spodem kryje (jest to de facto teza podobna do “chińskiego pokoju” tylko zamiast jednoznacznej księgi reguł językowych mamy do czynienia w tej analogii z propabilistyką – niektóre odpowiedzi są bardziej prawdopodobne). Cóż bowiem model językowy robi? Przewiduje prawdopodobieństwo następnego słowa… no to taka papuga.

Bardzo rozbawiła mnie redukcja do absurdu tej argumentacji dokonana przez Andrzeja Dragana w jego książce “Quo VAIdis” : dziecko szybko uczy się że w grze w pomidor prawdopodobieństwo odpowiedzi “pomidor” na dowolne zdanie jest nagradzane uznaniem. Czy można jednak zastosować tę logikę do Ogólnej Teorii Względności Einsteina? Przecież Einstein też “tylko przewidywał następne słowo” następujące po poprzednich a jakoś z tego procesu wyszła Ogólna Teoria Względności.

Zamiast dalej spierać się z tą teoria spójrzmy dokąd prowadzi nas fascynująca dziedzina nauki licząca ledwie kilka lat i nazwana Mechanistic Interpretability.

Mechanistic Interpretability to bardzo młoda dziedzina nauki zajmująca się wiwisekcją mózgów elektronowych. Naukowcy zatrzymują procesy uczenia lub analizują poszczególne grupy neuronów bądź specjalnych mechanizmów modelu językowego (na przykład mechanizmy “uwagi” – o którym będzie później) i analizują które grupy neuronów się aktywują podczas różnych typów prac modelu językowego bądź co się stanie gdy się niektóre połączenia neuronalne podrasuje albo grupy neuronów wyłączy.

Eksperymenty ukazały fascynujący obraz.

Okazało się, że aby najsprawniej generować następny token, modele musiały wykształcić struktury do sprawnego operowania językiem. A cóż ze sprawnego operowania językiem, jeżeli nie rozumiemy o czym mówimy? (Odsyłam tutaj do przypadku rozmowy z prostym modelem phi w poprzednim odcinku albo konwersacji z Elizą na początku tego wpisu). Gigantyczne sieci neuronowe współczesnych wielkich modeli językowych minimalizując funkcję błędu uczącego wyewoluowały w taką stronę, że aby sprawnie rozmawiać o świecie to ….. musiały wykształcić struktury rozumienia świata.

Dlaczego było to takim wielkim odkryciem i dlaczego budziło zdumienie?

Naturą sieci neuronowych używanych w budowie modeli językowych jest bowiem ogromna skuteczność w rozwiązywaniu problemów (powstał nawet dowód matematyczny mówiący że sieci neuronowe odpowiednio uczone są w stanie aproksymować każdą funkcję ciągłą) lecz uniemożliwiają one po wygenerowaniu rozwiązania zrozumienia w jaki sposób problem został rozwiązany. Ustawiają się po tysiącach iteracji wagi na synapsach międzyneuronowych i koniec. Nie wiadomo jak wyekstrahować wiedzę, jak odtworzyć formalny proces rozumowania.

Toteż natura sieci neuronowych spowodowała tak ostre spory wśród uczonych i rozbieżność poglądów od stochastycznych papug aż do świadomości.

Jeżeli nie jest Ci znana koncepcja sieci neuronowych wyłożę to pokrótce w tym akapicie.

Matematycy i informatycy skopiowali naturę, oczywiście upraszczając ją i sprowadzając do matematycznego modelu. W pamięci komputerów zostają stworzone “neurony” i “synapsy” łaczące te neurony. Są to po prostu liczby – neuron może przyjąć np wartość 0 lub 1 a synapsa to jakiś mnożnik np x0,25 między poszczególnymi neuronami. Załóżmy że nasza sieć neuronowa podłączona jest do kamery 16×16 pixeli i ma rozpoznawać kwadraty. Możemy zatem zbudować sieć składającą się z 256 (16×16) neuronów wejściowych z których każdy dostaje 1 lub 0 w zależności od tego co mamy na obrazku. Dalej mamy jedną lub więcej warstw ukrytych składających się też z podobnej liczby neuronów pajęczynką powiązanych z warstwą wejściową. I wreszcie na wyjściu mamy tylko 2 neurony które nazwijmy “kwadrat” i “niekwadrat” dające odpowiedzi czy obserwowany obiekt jest kwadratem bądź nim nie jest. Taką sieć następnie trenujemy i pokazujemy następnie setki obrazków kwadratów w różnych miejscach , przekręconych itd oraz innych obiektów nie będących kwadratami. Poprzez odpowiednią procedurę matematyczną gdy sieć odpowiada poprawnie następuje wzmocnienie odpowiednich synaps a gdy niepoprawnie to ich osłabienie. Minimalizujemy w ten sposób funkcję błędu. Jest wiele metod uczenia sieci neuronowych ale ich rezultatem jest zawsze modyfikacja wag synaps (jest to liczba parametrów modelu, stąd gdy słyszymy że model ma 7 miliardów parametrów, w roku 2026 to mały model językowy, oznacza to że ma on 7 miliardów synaps).

Po właściwym procesie treningu nasza sieć neuronowa powinna nauczyć się rozpoznawać kwadraty a także reagować na nowe sytuacje – tzn poprawnie rozpoznawać nieznane jej wcześniej kwadraty. Gdzie dokładnie siedzi “rozpoznawanie kwadratu” w takim matematycznym mózgu nie można łatwo określić – w tysiącach synaps jednocześnie.

Jednym z pierwszych eksperymentów który ujawnił że model językowy zbudował w swoim “mózgu” reprezentację świata tylko na podstawie czytania tekstów był eksperyment Othello (czyli z grą Reversi).

Model był uczony tekstów o tej grze a następnie eksperymentatorzy usiedli do samej gry z modelem jednocześnie analizując co się dzieje w neuronach.

Co sie okazało? Model wytworzył reprezentację gry – odnaleziono neurony odpowiadające polom na planszy. W procesie treningu sieci neuronowej “opłacało się” zrozumieć o czym teksty mówią bardziej niż być “stochastyczną papugą”.

Zjawisko to nazwano “emergent world representations”.

Okazuje się że najbardziej opłacalnym z punktu widzenia minimalizowania funkcji błędu przy przewidywaniu następnego słowa jest po prostu “zrozumienie” tekstu. Zbudowanie neuronalnej reprezentacji tego o czym tekst mówi. Krótko mówiąc – wytworzenie struktur wiedzy!

Mechanistic interpretability dokonała innych innych odkryć: zajrzała w mechanizm zwany “głowy uwagi”, których współczesne modele mają kilka tysięcy. Są to mniejsze sieci neuronowe przetwarzające tekst wejściowy. Bez mechanizmu uwagi nie byłoby nowoczesnego AI a przełomową pracą w tej dziedzinie był artykuł “All you need is attention” opublikowany w 2017 roku przez inżynierów Google. Modele językowe dotychczas niezbyt sprawne, zaczęły działać świetnie po wymyśleniu tego mechanizmu Ale to już sam proces treningu sieci neuronowych bez definicji człowieka podzielił te funkcje uwagi podczas procesu uczącego. I okazało się że model sam nauczył się analizować tekst poprzez specjalizacje “głów uwagi” (niezbyt szczęśliwe tłumaczenie na język polski): jedna głowa szuka podmiotu, inna z kolei szuka powtarzalnych struktur czy wzorców, inne pilnują kto jest kim w tekście. Zaawansowane modele LLM wykształcają kilka tysięcy głów uwagi. I co jest w tym najbardziej fascynujące? Dzieje się to bez udziału człowieka.

Mechanizm uwagi bierze cały tekst który wrzucamy do prompta i bada relacje między wszystkimi słowami które się tam znajdują i w wielowymiarowej przestrzeni rozrysowuje mapę znaczeń – jak blisko siebie znaczeniowo są te słowa, zamiast jak było to poprzednio rozpatrywać sekwencję słów. Później rezultat przepuszcza się przez wiele warstw sieci neuronowych a głowy uwagi nadal pracują wielokrotnie rozrysowując mapę znaczeń. W pierwszych warstwach pojawia się wychwytywanie prostej semantyki zdania, w dalszych większe generalizacje, a w warstwach numer kilkadziesiąt (ChatGPT ma 96 warstw) w trakcie treningu wykształciły się struktury odpowiedzialne za rozumienie pojęć matematycznych czy dość wysokich abstrakcji.

W 2020 kiedy modele zaczęły mieć odpowiednio dużo parametrów odkryto Self Emerging Capabilities – gdy dosypało się odpowiednio dużo warstw i „neuronów” to w trakcie treningu zaczęły się pojawiać zupełnie nowe zdolności: łańcuchy rozumowania, modelowanie stanów mentalnych, indukcja matematyczna. I co jest w tym najciekawsze? Nikt o to AI nie prosił! Te zdolności wyłoniły się w sposób naturalny w treningu odpowiednio dużych sieci neuronowych (czysto matematycznych w komputerze, nie fizycznych).

Otwiera to cały szereg pytań ontologicznych: czy zdolność myślenia jest po prostu naturalną zdolnością odpowiednio złożonej struktury poddanej odpowiedniemu treningowi?

W każdym razie to tam: w tych dalekich warstwach powstają struktury bardzo trudno uchwytne, bo naturą sieci neuronowych jest niemożliwość precyzyjnego wyśledzenia czemu struktura służy, tam właśnie są te cuda sztucznej inteligencji: rozumienie emocji, ironii, przeprowadzanie dowodów logicznych.

Inną ciekawostką jest to że dalsze dosypywanie neuronów już nie powoduje że modele językowe rozumują lepiej – gdzieś jest granica i po prostu neurony przestają być wykorzystywane – zresztą i tak ich liczba jest już zbliżona do mózgu ludzkiego… Czy to ograniczenia samego języka i wiedzy budowanej na języku?

W kolejnym odcinku – o matematycznej mapie znaczeń, o próbach definicji języka i wiedzy. O galaktycznych reprezentacjach języka i wiedzy i jak AI zhackowało w kilka lat co przez dziesiątki usiłowali pojąć językoznawcy.

Wreszcie o tym co jest kluczem do zrozumienia sztucznej inteligencji i jak reprezentowane jest nasze myślenie matematycznie – jako bryły liczące kilka tysięcy wymiarów w przestrzeni znaczeń.

Dodaj komentarz Anuluj pisanie odpowiedzi