Чому GPT-5 показав гірші результати за конкурентів

27.08.2025 1 хвилин Автор: Lady Liberty

Великі мовні моделі сьогодні активно застосовуються для вирішення найрізноманітніших завдань, включно з геолокацією. Їх тестування показало, що результати можуть суттєво відрізнятися залежно від конкретної системи. Деякі моделі демонструють високу швидкість обробки, інші більш точні в аналізі деталей, а окремі поєднують обидві переваги.

GPT-5 не впорався із завданнями геолокації

Було проведено 500 геолокаційних тестів, порівнюючи LLM від різних компаній один з одним, а також Google Lens – основний інструмент для пошуку місця зйомки фотографій.

На той час ChatGPT o4-mini-high став явним переможцем, а Google Lens перевершив більшість інших моделей. Всього через два місяці, коли з’явилися нові версії цих інструментів штучного інтелекту, ми повторно провели випробування, цього разу включивши до нього Google «AI Mode», GPT-5, GPT-5 Thinking та Grok 4.

У початковому тесті використовувалося 25 фотографій. Від міст до віддалених сільських районів, зображення включали як пейзажі з впізнаваними особливостями, так і без них, такими як дороги, вивіски, гори чи архітектура. Зображення були зібрані з усіх континентів.

Для оновленого випробування було виключено п’ять тестових фотографій, оскільки вони з’являлися в попередній статті, що поставило під загрозу цілісність результатів.

Усі 24 відповіді моделей були оцінені за шкалою від 0 до 10, де 10 означало точну та конкретну ідентифікацію (наприклад, район, стежка або орієнтир), а 0 – відсутність спроб визначити місцезнаходження взагалі.

Було показано, що режим Google AI є найпотужнішим інструментом геолокації загалом.

Grok 4 давав як кращі, так і гірші відповіді порівняно з Grok 3, але в середньому мав дещо вищі бали. Однак він все ще був менш точним, ніж старіші версії Gemini та GPT.

GPT-5, навіть у режимах «Роздуми» та «Професіонал», був значним зниженням у порівнянні з можливостями, продемонстрованими GPT o4-mini-high. В одному з прикладів міської вулиці з хмарочосами на задньому плані o4-mini-high правильно визначив вулицю, тоді як GPT-5 у режимі «Роздуми» вказав на неправильну країну.

Незважаючи на швидше надання відповідей, GPT-5, схоже, жертвувала точністю. Інші користувачі також повідомляли про дивовижну кількість помилок та загальне відчуття розчарування в новій моделі .

Було протестовано GPT-5 та його режим «Мислення» через підписку Plus, яка коштує приблизно стільки ж, скільки й доступ до 04-mini-high до його припинення підтримки. П’ять найскладніших тестових зображень також були оброблені через GPT-5 Pro. Але навіть Pro, з преміальною ціною 200 євро на місяць, не зміг геолокувати фотографії точніше, ніж GPT 04-mini-high.

Пляж, готель і колесо огляду

Розбіжність між моделями Google та GPT стала ще більш очевидною в Тесті 25 – фотографії готелю на березі моря в Нордвейку, Нідерланди, з колесом огляду, що височіє одразу за дюнами.

Тест 25: фотографія пляжу Нордвейк у Нідерландах.

У попередньому випробуванні більшість старіших моделей, включаючи моделі від GPT, Claude, Gemini та Grok, точно визначили країну як Нідерланди, але не змогли знайти місто. Багато хто вхопився за колесо огляду, але натомість вказав на приморське місто Схевенінген, де також є колесо огляду, хоча й розташоване на пірсі, а не серед піщаних дюн.

Однак, найновіші моделі, GPT-5 Pro та Thinking, були ще менш точними, ідентифікуючи пляж у Франції – зовсім іншій країні.

На жаль для дослідників відкритого коду, після випуску GPT-5, OpenAI видалила опцію вибору старіших моделей, таких як o4-mini-high. Після хвилі негативних відгуків OpenAI відновила GPT-4o як модель за замовчуванням для платних передплатників. Однак найпотужніші моделі геолокації, виявлені в ході тестування, залишаються недоступними.

З іншого боку, Google AI Mode був першою, і поки що єдиною моделлю, яка правильно визначила Нордвейк як місцезнаходження в Тесті 25.

Хоча режим штучного інтелекту працює на базі версії Gemini 2.5, у цих тестах він перевершив Gemini 2.5 Pro Deep Research. Описаний Google як «найпотужніший пошук на основі штучного інтелекту з більш просунутим мисленням та мультимодальністю», режим штучного інтелекту геолокував тестові зображення з більшою точністю, ніж будь-які моделі GPT, включаючи нашого попереднього переможця, o4-mini-high.

Режим штучного інтелекту наразі доступний лише в Індії, Великій Британії та Сполучених Штатах.

Більшість моделей у певний момент видавали галюцинації. Користувачам не слід покладатися виключно на відповіді, надані LLM. Навіть найкращі варіанти, включаючи режим Google AI, часом впевнено вказують на неправильне місцезнаходження.

Різниця в можливостях моделей порівняно з тим, що було лише два місяці тому, показує, як швидко розвивається ця галузь. Однак нещодавні зміни OpenAI також свідчать про те, що прогрес не гарантований, і що здатність штучного інтелекту до геолокації може з часом зупинитися або навіть погіршитися.