Przeglądając najnowsze osiągnięcia modeli językowych, łatwo utknąć w analizowaniu suchych tabel i porównań teoretycznych. Jednakże prawdziwy test siły sztucznej inteligencji nie odbywa się na papierze, lecz podczas rzeczywistego tworzenia kodu i projektowania rozwiązań.
Trzy potęgi rynku AI
Zaprosiliśmy do rywalizacji trzech najpotężniejszych modeli dostępnych obecnie dla deweloperów. W gronie naszych konkurentów znaleźli się GLM 5.2 od chińskiej firmy Zhipu, Quen 3.7 Max reprezentujący Alibabę oraz Claude Opus 4.8 produkowany przez Anthropic.
Testowanie kodowania gier
Pierwszym wyzwaniem było stworzenie prostej gry typu voxel runner. W tym starciu GLM 5.2 od razu wyróżnił się jako najzdolniejszy programista, tworząc funkcjonalny i rozrywkowy projekt.
Model Quen 3.7 Max również poradził sobie z zadaniem, choć jego wynik był nieco mniej imponujący w kwestii płynności działania gry. Z kolei Claude Opus 4.8 okazał się tutaj najgorszym uczestnikiem testów, generując jedynie podstawowe i mało atrakcyjne rozwiązanie.
Mapy orbitalne
Następnym zadaniem było narysowanie mapy orbit wewnętrznych układu słonecznego. Tutaj sytuacja uległa całkowitej zmianie na korzyść Claude Opus 4.8, który stworzył najbardziej precyzyjne i estetyczne przedstawienie tego zjawiska.
GLM 5.2 oraz Quen 3.7 Max w tym teście nie dorównali modelowi od Anthropic pod względem jakości wizualizacji danych astronomicznych, co pokazuje specyficzne mocne strony każdego algorytmu.
Dynamika piłki
Trzecim testem była symulacja fizyki płynnej wewnątrz piłki. Znowu GLM 5.2 zdominował konkurencję, tworząc animację o wysokiej jakości i realistycznym zachowaniu obiektów.
Claude Opus 4.8 tutaj wyraźnie przegrał z chińskim modelem, generując nudną i mało dynamiczną prezentację fizyki płynnej. Model od Alibaby znalazł się w środku tego zestawienia.
Tworzenie stron internetowych
Kolejnym obszarem badawczym było zaprojektowanie kompletnej strony internetowej dla potrzeb biznesowych. Tutaj GLM 5.2 ponownie udowodnił swoją wszechstronność, dodając do projektu ładne animacje i czysty design.
W przeciwieństwie do niego Claude Opus 4.8 stworzył jedynie bardzo podstawową strukturę bez żadnych dodatkowych urozmaiceń wizualnych czy interakcji z użytkownikiem.
Konkluzje testów
Nasze wyniki wywróciły do góry nogami powszechne przekonania o tym, który model jest najlepszy w każdym aspekcie. GLM 5.2 okazuje się mistrzem uniwersalnym, radząc sobie świetnie zarówno z kodowaniem gier, jak i tworzeniem stron.
Claude Opus 4.8 sprawdza się najlepiej przy zadaniach wymagających precyzji danych, takich jak mapy orbitalne, ale słabiej w generowaniu kreatywnej treści czy animacji.