Jesteśmy świadkami premiery modelu Qwen 3.7 Plus, który pochodzi od znanego zespołu Qwen należącego do korporacji Alibaba. Ten nowy system wchodzi do użytku i oferuje funkcje, o których wcześniej mogliśmy tylko marzyć. Większość dostępnych obecnie modeli sztucznej inteligencji wykonuje jedną rzecz bardzo dobrze, czy to czytanie tekstu, czy analizowanie obrazków.
Czym jest multimodalny agent?
Model Qwen 3.7 Plus został zaprojektowany tak, aby robić wszystko naraz, co nazywamy multimodalnym agentem. To słowo może brzmieć skomplikowanie, ale wyjaśnimy je prosto. Multimodal oznacza, że system przyjmuje różne rodzaje danych wejściowych, takie jak słowa, obrazy czy nawet wideo. Agent natomiast oznacza, że model nie tylko odpowiada na pytania, ale może planować, podejmować kroki i faktycznie ukończyć zadanie.
Jeden model, wiele możliwości
Obecnie możecie korzystać z tego modelu przez API w Model Studio Alibaba Cloud. Istnieje również pokrewny model Qwen 3.7 Max, ale on działa wyłącznie na tekście. Wersja Plus to ta, która posiada zdolność widzenia i wykonywania czynności w świecie wizualnym.
Funkcje agenta programistycznego
Pierwszą kluczową cechą jest to, że jest to agent programistyczny, a nie narzędzie, które tylko wypuszcza kod i zostawia go do naprawienia. Zespół Qwen wyraźnie wymienia, że model może rozumować nad problemem krok po kroku. Może pisać i przepisywać własny kod, a także wywoływać zewnętrzne narzędzia.
Najważniejszą cechą jest zdolność do testowania własnej pracy. Model nie zatrzymuje się przy pierwszej, chaotycznej próbie. Sprawdza wynik i kontynuuje działanie w pętli, aż zadanie zostanie wykonane poprawnie. To podejście eliminuje błędy i zapewnia wysoką jakość końcowego produktu.
Działanie na ekranie i w linii poleceń
Model ten działa zarówno na zwykłym ekranie, jak i w linii poleceń. Dzięki temu może obsłużyć zadania wizualne i tekstowe w tym samym przepływie bez konieczności zmiany narzędzi. Jest to ogromna zaleta dla pracowników, którzy potrzebują elastyczności w swojej codziennej pracy.
Agent wizualny w praktyce
Jako agent wizualny może patrzeć na obrazek, zrozumieć, co na nim jest, wskazać właściwe miejsce na ekranie i szukać odpowiedzi na podstawie tego, co widzi. Ta część widzenia jest warta zwolnienia, ponieważ zmienia sposób, w jaki z nią pracujecie. Kiedy wskazuje na dokładne miejsce na ekranie, nigdy nie musicie zgadywać, o którą przycisk lub którą linię chodzi.
Kiedy napotyka coś, czego nie rozpoznaje, nie macha ręką. Może to sprawdzić i odpowiedzieć, używając zarówno tego, co znajduje się bezpośrednio przed nim, jak i informacji, które wykopie. Sam obrazek nie musi przenosić całej odpowiedzi, on patrzy, uzupełnia luki i przekazuje coś, na czym możecie faktycznie działać.
Współpraca z innymi ustawieniami
Model współpracuje z innymi ustawieniami i nie jesteście zablokowani w jednej aplikacji. Może działać w różnych ramach agentów, dzięki czemu możecie podpiąć go do przepływu pracy, który już używacie, zamiast zaczynać od nowa. To oszczędza czas i pozwala na płynne integracje z istniejącymi systemami.
Wywoływanie zewnętrznych narzędzi
Wywoływanie zewnętrznych narzędzi oznacza, że nie musi robić wszystkiego z pamięci. Jeśli zadanie wymaga pewnych informacji lub działania, które żyje poza czatem, może sięgnąć po właściwe narzędzie i złożyć wynik ponownie w pracy. Połączenie tego z myśleniem krok po kroku daje coś, co planuje najpierw, a następnie działa, zamiast tylko rzucać jedną zgadywankę na ścianę.
Wyniki w testach Vision Arena
W kwestii wizji wczesna wersja tego modelu zajęła wysokie miejsce na publicznej tablicy liderów o nazwie Vision Arena, gdzie prawdziwi ludzie głosują. Wyniki te potwierdzają, że model potrafi analizować obrazy z dużą precyzją i zrozumieniem kontekstu. Jest to dowód na to, że inwestycja w ten model będzie opłacalna dla wielu branż.
Podsumowując, nowy Qwen 3.7 Plus to nie tylko kolejny model AI, ale prawdziwy asystent, który widzi, myśli i działa. Warto go poznać i sprawdzić w swojej pracy, aby zobaczyć, jak może zmienić sposób, w jaki realizujecie zadania. Zachęcamy do przetestowania go i dołączenia do grona użytkowników, którzy czerpią korzyści z tej technologii.