Chłop i lokomotywa – Talking to Robot

W XIX wieku podczas budowy kolei warszawsko-wiedeńskiej w Polsce krążyła następująca anegdota:

“Inżynier z pasją wyjaśniał chłopu tajniki lokomotywy, tłumacząc, jak podgrzewana woda zamienia się w potężną parę, która pod ciśnieniem napiera na tłoki i wprawia w ruch stalowe koła pojazdu. Wieśniak słuchał w wielkim skupieniu, potakując z uznaniem nad każdym detalem mechanizmu. Gdy wykład dobiegł końca, chłop podrapał się po głowie i rzekł z namysłem: Wszystko to, panie inżynierze, mądrze brzmi i rozumiem już, jak ta para te wszystkie żelaziwa pcha… ale niech mi pan tylko powie: gdzie w tym wszystkim siedzi koń?”.

Muszę przyznać, że tak właśnie czułem się widząc jak LLM nowej generacji sprawnie buduje kod programu komputerowego lub przeprowadzającego dowód matematyczny.

Jestem heavy userem AI.
Mam maksymalny plan Claude Code: firmie Anthropic oddaję ciężkie pieniądze. W dodatku ten plan nie wystarcza i dosypuję głodnemu systemowi pieniędzy poprzez różne doładowania czy dodatkowy budżet za używanie API.
Oczywiście do tego dochodzi subskrypcja ChatGPT. Do tego jeszcze Manus od firmy Meta, który to nadmiernie się rządzi, ale jest dobry do tworzenia różnorakich prototypów.
W swoim czasie wykupywałem także subskrypcje do różnorakich AI graficznych z czego najsłynniejszym systemem któremu oddałem swoje środki jest Midjourney.
Znajomość tych narzędzi graficznych przydała mi się gdy zlecałem projekt gdy planszowej i część grafików w pierwszym zachwycie AI przesłała mi próbki prac będących po prostu zupełnie niezawoalowanym efektem pracy Midjourney czy ChatGPT – dodam że nie dostali kontraktu.
Niektórzy czytelnicy sprawni w operowaniu narzędziami AI złapią się za głowę: po co płacisz tyle za te narzędzia??? Zainstaluj Cursor czy Openclaw – nie dość że darmowe to lepsze, ale w tą dyskusję nie chcę dziś wchodzić.
Do tego opłaciłem się narzędziom chmurowym w rodzaju RunPod także HuggingFace gdzie instalowałem i testowałem różnego rodzaju modele sztucznej inteligencji pracując nad prototypami systemów, które oczywiście mają mi przynieść miliony. (Nie zarzuciłem tej zbrodniczej inicjatywy i pracuję nad 2 projektami).

W dodatku nawet studiowałem cybernetykę! W dawnych czasach co prawda i nie skończyłem, ale główne koncepty się nie zmieniły – teoria sieci neuronowych nie zmieniła się od 40 lat! (Wykładał je uroczy rektor AGH: prof Ryszard Tadeusiewicz). Bardziej praktyczni wykładowcy sztucznej inteligencji, gdy podałem wyczytany w Technice Wojskowej przykład że pocisk wystrzelony z samolotu rozpoznaje czy to ciężarówka czy czołg, stwierdzali że oni nie odważyliby się stanąć tam w okolicy. Ogólnie sieci neuronowe były znane, ale nie działały dobrze w większości zastosowań. I na lat co najmniej dwadzieśica lat dziedzina przestała być “modna” aż do ogromnego wybuchu zastosowań, gorączki AI za sprawą Large Language Models, Stable Diffusion i pojawienia się ogólnie znanych firm OpenAI czy Anthropic.

(Sprawiedliwie trzeba też powiedzieć że Yuval Harrari pisał o nadchodzącej potężnej rewolucji AI już w 2018 ale jakoś trudno było wtedy w to uwierzyć).

Do czego jednak zmierzam….
Pomimo, że byłem zaznajomiony z podstawowymi konceptami sztucznej inteligencjii tego że jestem jej intensywnym użytkownikiem to staję przed pytaniem:
JAK TO MOŻLIWE ŻE AI PRZEPROWADZA DOWÓD MATEMATYCZNY, PISZE KOD, czy rozumie ironię jak ten chłop przed lokomotywą.
No tak, wiem – robi się mapę znaczeń słów (embeddingi) i tu sie wpuszcza w kolejne warstwy sieci neuronowych i trenuje się na gigantycznej masie tekstów no i powinien wypaść właściwy token końcowy. Wszystko jasne? Jasne! TYLKO GDZIE JEST KOŃ?
No, jak to możliwe że ta głupia sieć neuronowa tłumaczy mi teorię względności na przykładach, wychwytuje że czegoś nie rozumiem i dodatkowo mi to objaśnia!
Bo jest to niby prosta maszynka matematyczna: wejście: słowa , wyjście : słowa a w środku maszynka do znajdowania najbardziej prawdopodobnego słowa następnego .
Spotkałem się na przykład z takim tłumaczeniem: “model na wejściu otrzymał odpowiednio dużą ilość tekstów matematycznych jako dane uczące liczoną w milionach stron”.
Przyznam że jest to dla mnie wytłumaczenie klasy: człowiek składa się z atomów węgla, tlenu, wodoru itd. No i jest ich odpowiednio dużo, więc powstaje człowiek.
Albo : składa się z komórek o różnych funkcjach. Jedne budują włosy, inne kości a jeszcze inne tworzą krew (tu już dużo lepiej).
W tym wzorcu widzimy pewną prawidłowość – aby wyjaśnić złożony byt warto go opisywać warstwami. Świetnie rozumieją to architekci oprogramowania tworząc “stosy technologiczne” opisujące jakąś technologię.

Stos protokołu TCP/IP będącego podstawą komunikacji w internecie. Później się przekonamy że ten rodzaj metodologii jest przydatny przy próbie zrozumienia jak AI operuje rozumieniem i językiem

Idąc tym tropem możemy poczuć, że zbliżamy się do pełniejszego opisu rzeczywistości gdy potrafimy opisać warstwy niższe i wyższe systemu. Nasze rozumienie będzie dużo pełniejsze gdy opiszemy funkcje serca, jego elementy składowe, a także funkcje mózgu: tu układ mowy, tu widzenie. Gdy uszkodzi się ten fragment to człowiek przestaje widzieć kolory.

Przyznamy że ten opis umożliwia ZBLIŻENIE się do pewnego rozumienia czym jest człowiek. Czy jest to pełne zrozumienie? Nie, ale na razie na nic lepszego chyba nas nie stać. Coś wiemy, choć wiemy że więcej nie wiemy, ale mamy perspektywy że dowiemy się więcej.
Tymczasem jak wygląda sprawa ze sztuczną inteligencją?
Dlaczego AI umie napisać wiersz? No bo daliśmy jej dużo wierszy do przeczytania i przeprowadziliśmy trening odpowiedzi. Czy taka odpowiedź zadowoliłaby nas gdyby chodziło o człowieka? Czemu jest dobrym kompozytorem? No bo posadziliśmy go przy fortepianie i musiał 20 lat na nim grać.
Mamy do czynienia z dwoma skrajnymi kategoriami wytłumaczenia czym jest Wielki Model Językowy.
Pierwsza deprecjonująca, operująca na analogii Chińskiego Pokoju, papugi czy prostego mnożenia macierzy. W skrócie analogia chińskiego pokoju powiada: gdy zamkniemy człowieka nie mówiącego po chińsku i na wejściu otrzyma on jakiś chiński znaczek a do drugiego okienka poda odpowiedni chiński znaczek i zostanie nagrodzony za właściwą odpowiedź, to nauczy się podawać odpowiednie chińskie litery we właściwej kolejności. Będzie on sprawiał wówczas wrażenie rozumienia tekstu o którym nie ma on pojęcia.

Bardzo kusząca analogia: bo wszak tak właśnie trenowana jest sieć neuronowa – dobra odpowiedź : nagroda! Zła odpowiedź: kara!.

O tym dlaczego modele językowe nie są Chińskim Pokojem – w następnej części.

Analogia papugi: no skoro modele dostały pół internetu do uczenia się to po prostu wyszukują odpowiedni fragment tekstu. Nie jest również prawidłowa. O tym również zamierzam opowiedzieć w następnej części: dam tutaj tylko przykład – możemy zainstalować sobie zupełnie sprawny model językowy na naszym laptopie. I to zupełnie niezły, na przykład: Mistral czy lepszy Mixtral . Albo Gemma. Należy w tym celu ściągnąć program Ollama i możemy instalować lokalnie różne modele językowe. No i co prawda trzeba mieć lepszy komputer, ale dobrej klasy model językowe zajmuje po prostu X gigabajtów! Od kilku do stu kilkudziesięciu. Ta sama sprawa jest z wielkimi modelami w rodzaju ChatGPT czy Claude – ich wielkość końcowa stanowi ułamek wielkości całości wiedzy zawartej w internecie. Nie jest możliwe aby zawierały one po prostu kalkę wiedzy.

(Nawias 1: Stąd proste testy prowadzone przez niektóre osoby: powiedz mi co jest na stronie 140 “Pana Tadeusza” mogą się nie powieść. Czasami model może mieć tę informację, a czasami wręcz może ją wyhalucynować).

(Nawias 2: Polecam zabawę w Ollama z “głupimi” modelami. Oto rozmowa z modelem “Phi”:

Tell me about friendship of Abraham Lincoln and Maria Sklodowska-Curie
Sure, I’d be happy to help!

Abraham Lincoln and Marie Skłodowska-Curie were both incredibly influential figures in their respective fields – Lincoln was the 16th President of the United States while Curie was a pioneering scientist who made groundbreaking

discoveries in the field of radioactivity. Despite coming from vastly different backgrounds, both men were known for their strong friendship and mutual respect for one another.

Lincoln and Curie first met at the World’s Fair in Chicago in 1893. They quickly struck up a conversation over coffee and found that they had much in common despite their age difference (Curie was only 27 at the time). The two men continued to stay in touch, exchanging letters and discussing various topics.

Their friendship is often described as one of mutual admiration and respect. Lincoln was inspired by Curie’s dedication to her work and her commitment to advancing science, while Curie admired Lincoln’s leadership skills and his ability to bring people together.

…. bardzo kreatywny robocik (Licoln zmarł przed narodzeniem Skłodowskiej-Curie).

Z drugiej strony mamy kategorie tłumaczeń wielkich tego świata Sama Altmana czy innych tuzów AI którzy mówią: Nie wiemy jak AI udziela odpowiedz!

Szokujące prawda? Czyli ani pary ani konia.

Nie jest to jednak do końca prawda. Artykuły publikowane przez inżynierów OpenAI czy Anthropic wskazują na różne odkrycia w “mózgach” ich genialnych dzieci.

Odkryto np grupy neuronów aktywujących się przy ironii. Albo przy agresji. Wykryto pewne mechanizmy odpowiedzialne za prowadzenie rozumowania matematycznego. Istnieje obszar badań nazwany: Mechanistic Interpretability. Bardzo przypomina on badanie ludzkiego mózgu – naukowcy patrzą które grupy neuronów aktywuja się przy specyficznych pytaniach, patrzą co się stanie gdy wyłączy się jakieś obszary sieci neuronowych.

W ten sposób wyłania się cień rozumienia… który wskazuje że w sieciach neuronowych modelu językowego powstają specjalizowane ośrodki jak w ludzkim mózgu!

Czego się dowiedziałem na ten temat opowiem w następnym odcinku.

(Tekst dałem do poprawienia AI – wyszedł on pięknie sformatowany, ale tak wyprany z jakiegokolwiek stylu że przywróciłem mój tekst oryginalny ze wszystkimi jego niedoskonałościami).

Dodaj komentarz Anuluj pisanie odpowiedzi