Witamy w nowej erze sztucznej inteligencji, gdzie tradycyjne modele tekstowe ustępują miejsca agentom wizyjnym. Większość z Was używała dotychczas systemów, które były w pewnym sensie ślepe. Te starsze narzędzia przyjmowały słowa i generowały kolejne słowa, nie potrafiąc faktycznie patrzeć na rzeczy w otoczeniu użytkownika. Gdy pokazywało się im zdjęcie nieporządkowego podania, często machały ręką zamiast analizować treść. Teraz sytuacja się zmieniła dzięki pojawieniu się Qwen 3.7 Plus.
Jeden model, który widzi, myśli i działa
Zespół Alibaby stworzył nowego agenta AI, który integruje w sobie funkcje oczu, myślenia i działania w jednym pakiecie. W tej nowej rodzinie modeli wyróżnia się dwa główne podejścia. Pierwszy model, nazwany Max, jest tylko tekstowy. Dajesz mu słowa, a ono zwraca Ci słowa, będąc mądrym, ale ślepym asystentem. Drugi model, czyli Plus, posiada wizję. Przyjmuje zdjęcia, zrzuty ekranu i wideo, a następnie przetwarza te dane tak jak człowiek.
Technologia widzenia w praktyce
Kiedy firma Alibaba mówi o multimodalności, ma na myśli zdolność obsługi nie tylko tekstu, ale także tego, co widzimy na ekranie. Model potrafi wykryć przycisk, zrozumieć jego funkcję i kliknąć go w sposób naturalny. W ten sam sposób, w jaki robimy to my, gdy siadamy przy komputerze. Qwen 3.7 Plus nie zgaduje na podstawie ukrytego kodu, lecz analizuje grafikę tak jak ludzkie oko.
System działa w dwóch trybach jednocześnie, obsługując zarówno przyjazne interfejsy graficzne, jak i proste narzędzia tekstowe. Większość modeli wybiera jeden z tych sposobów, ale ten nowy robi oba. Pozwala to na elastyczne sterowanie zarówno ładnymi przyciskami, jak i zaawansowanymi konsolami tekstowymi bez konieczności wyboru jednej ścieżki.
Przykłady zastosowań w codziennej pracy
Wyobraźmy sobie sytuację, w której masz stronę internetową, która nie przekonuje użytkowników do rejestracji. Pokazujesz Qwenowi 3.7 Plus zrzut ekranu i zapytasz, co jest mylące. On patrzy na samą stronę i wskazuje elementy powodujące, że ludzie opuszczają ją. To jeden z wielu małych przykładów, które pokazują, jak widzenie zmienia wszystko dla zwykłych ludzi.
Większość z nas nie żyje w kodzie, lecz w zrzutach ekranu, zdjęciach i plikach PDF. Robimy zdjęcie paragonu, zrzut ekranu czatu lub zapisujemy wykres wysłany przez klienta. Wszystko to wcześniej było niewidoczne dla AI, które musiało wszystko wpisać ręcznie. Teraz po prostu pokazujemy mu te materiały, a sztuczna inteligencja je czyta i analizuje.
Historia rozwoju technologii wizyjnej
Alibaba buduje tę technologię od dłuższego czasu. Ich wcześniejszy model wizyjny już mógł patrzeć na ekrany i klikać po nich, uzyskując najwyższe wyniki na świecie w teście OSWorld. To nie jest dziki nowy pomysł, który spadł z nieba, lecz kolejny krok na ścieżce, po której szli inżynierowie. Qwen 3.7 Plus jest nową, czystsza wersją tej pracy, teraz wbudowana w jednego agenta.
Warto pamiętać, że obecna wersja Plus to wersja zapowiedzi. Oznacza to, że funkcje mogą się jeszcze rozwijać, ale fundamenty są już solidne. Model ten otwiera nowe możliwości dla biznesu, pozwalając na automatyzację zadań, które wcześniej wymagały ręcznej interwencji. Możemy polegać na systemie, który rozumie kontekst wizualny tak dobrze jak my.
Dlaczego to ma znaczenie dla Ciebie?
Przejście od ślepych modeli tekstowych do agentów z wizją to ogromny skok technologiczny. Zmienia to sposób, w jaki współpracujemy z technologią, czyniąc ją bardziej intuicyjną i efektywną. Nie musimy już tłumaczyć komputerowi każdego szczegółu, bo on sam widzi i rozumie to, co przed nim. To kluczowy krok w kierunku pełnej automatyzacji procesów biznesowych.
Qwen 3.7 Plus to nie tylko kolejna aktualizacja, lecz rewolucja w sposobie postrzegania danych przez sztuczną inteligencję. Dzięki niemu możemy budować i automatyzować wszystko, co wcześniej wydawało się niemożliwe bez bezpośredniego udziału człowieka. To narzędzie, które warto poznać i wykorzystać w swojej codziennej pracy.