W dzisiejszym wpisie skupiamy się na dwóch nowościach, które zmieniają oblicze sztucznej inteligencji w obszarze inżynierii oprogramowania. Przedstawione zostały modele Claude Fable 5 oraz Mythos 5, które otwierają nowe horyzonty możliwości dla programistów i badaczy.
Premiera klasy Mythos na rynku publicznym
Model Claude Fable 5 to w istocie wersja dostosowana do ogólnego użytku najpotężniejszej dotychczas klasy modeli, znanej jako Mythos. Przez lata firma rozwijała technologie dostępne tylko dla wybranych partnerów projektu Glass Wing, a teraz ta wiedza trafia na szeroki rynek.
Porównanie z poprzednimi generacjami
Kiedyś Claude oferowano w trzech rozmiarach: Haiku, Sonnet oraz Opus. Ostatnia wersja modelu Opus 4.8 ukazała się dopiero miesiąc temu i była to najlepsza opcja do tej pory dostępna publicznie.
Fable 5 góruje jednak nad wszystkimi poprzednimi modelami klasy Opus, będąc pierwszym modelem Mythos udostępnionym szerokiej publiczności. Oznacza to skok jakościowy w obsłudze złożonych zadań i pracy opartej na wiedzy.
Techniczne detale i okno kontekstu
Jedyną istotną różnicą między Fable 5 a Mythos 5 są kwestie bezpieczeństwa. Model publiczny posiada odpowiednie zabezpieczenia, podczas gdy wersja partnerska jest dostępna wyłącznie dla sprawdzonych firm bez tych ograniczeń.
Wydajność w testach SWE Bench
Zainteresowani wynikiem mogą spojrzeć na dane z testu SWE Bench. W tym benchmarku Fable 5 osiągnął wynik wynoszący 95%, podczas gdy poprzedni mistrz, Opus 4.8, uzyskał tylko 88,6%. Jest to imponujący skok wydajności.
Przełomowe wyniki w analitycznych testach
Fable 5 również zdominował inne kluczowe metryki porównawcze. W teście SW Bench Pro model ten uzyskał wynik na poziomie 80%, wyprzedzając Opus o ponad dziesięć punktów procentowych.
Specjalistyczne zadania programistyczne
Najbardziej szokujący rezultat dotyczy testu Frontier Code. Tutaj Fable 5 osiągnął wynik wynoszący 29,3 punktu, co jest praktycznie podwójną wartością w stosunku do Opus 4.8, który zdobył zaledwie 13,4.
Możliwości pracy z długim kontekstem
Oprócz czystej inteligencji model ten został stworzony do długoterminowej i realnej pracy zawodowej. Posiada on okno kontekstu o wielkości jednego miliona tokenów, co pozwala na analizę ogromnych zbiorów danych.
Limity generowania tekstu
W przypadku pobierania długiego kontekstu maksymalna liczba danych wyjściowych na pojedyncze żądanie wynosi 128 tysięcy tokenów. Jest to kluczowa cecha dla aplikacji wymagających przetwarzania bardzo dużych dokumentacji.