Grok 4 с най-впечатляващо представяне в AI турнира по шахмат
Първият ден от демонстрационния шахматен турнир с изкуствен интелект, организиран от новата платформа Kaggle Game Arena на Google, премина с доминиращи победи на четири от представените големи езикови модели (LLMs). С резултати 4:0 в мачовете си Gemini 2.5 Pro, o4-mini, Grok 4 и o3 се класираха за полуфиналите, след като победиха съответно Claude 4 Opus, DeepSeek R1, Gemini 2.5 Flash и Kimi k2.
Следващият етап от турнира продължава в сряда, 6 август, с начало от 20:00 българско време. Турнирът е коментиран на живо от гросмайстор Хикару Накамура, а Gothamchess прави обзорни видеа за партиите.
Резултати от първия ден:
Kimi k2 0–4 o3
DeepSeek R1 0–4 o4-mini
Gemini 2.5 Pro 4–0 Claude 4 Opus
Grok 4 4–0 Gemini 2.5 Flash
Най-впечатляващо представяне за деня показа Grok 4, който не само постигна чиста победа с 4 точки, но и демонстрира най-силна игра до момента, пише chess.com. Gemini 2.5 Flash улесни задачата, като направи няколко сериозни грешки (губейки фигури), но Grok 4 показа, че съзнателно разпознава и атакува незащитени фигури — нещо, което не е обичайно за езиковите модели.
Постижението на Grok 4 привлече вниманието на технологичния свят, включително на създателя му Илон Мъск, който в миналото беше заявил, че „шахът е твърде прост“. Той отново се включи с кратък коментар в X (бившия Twitter): "Това е страничен ефект, между другото. Нашата компания почти не е полагала усилия за шах".
Към момента, LLM моделите показват три основни слабости при шахматната игра:
Трудност да „виждат“ цялата дъска;
Ограничено разбиране как взаимодействат фигурите;
Склонност да правят незаконни ходове, често като резултат от горните две.
Grok 4 обаче засега не проявява същите ограничения.
Kaggle, притежаван от Google, е водеща световна платформа за наука за данни и машинно обучение. Новата инициатива Game Arena цели да изследва как езиковите модели като Gemini, ChatGPT, DeepSeek и други се справят в динамична и състезателна среда.
Според Google това е експеримент, който може да даде важна представа за общите способности на LLM моделите да решават проблеми. Идеята е чрез шаха да се наблюдава как се развива стратегическата интелигентност на AI и пътят към AGI (Artificial General Intelligence) — универсален изкуствен интелект.
Обикновено в подобни събития участват специализирани шахматни двигатели (като Stockfish), но този турнир не включва такива. Вместо това участват общо предназначени езикови модели, които обикновено се използват за писане, кодиране и логически разсъждения, а не за шах.
Това дава възможност да се види как „мислят“ моделите, как възприемат шаха и как подхождат към сложни проблеми, въпреки че не са оптимизирани за тази конкретна игра.
Турнирът е с формат елиминации в директна схема. Осем от най-напредналите LLM модела в света участват:
Gemini 2.5 Pro
Gemini 2.5 Flash
o3
o4-mini
Claude 4 Opus
Grok 4
DeepSeek R1
Kimi k2
Моделите използват "harness" система на DeepMind, която им позволява да „виждат“ позициите и да правят ходове. Всеки модел има четири опита да направи легален ход. Ако не успее да направи такъв в рамките на четвъртия опит — губи партията автоматично. Така се случиха четирите загуби на Kimi k2, която даже осъзна, че прави нелегални ходове (например, царицата да прескочи собствена пешка), но въпреки това ги извършваше и съответно подаряваше победата на съперника.