U k r V i s t i

l o a d i n g

Виклики новітніх AI моделей: проблеми з фактичністю

Дослідження показали, що новітні мовні моделі ШІ стикаються з проблемами точності, зокрема галюцинаціями.

image

Останні моделі штучного інтелекту, такі як o3 від OpenAI, демонструють більше помилок у порівнянні зі старими варіантами. Це зазначає The New York Times на основі кількох досліджень.

Схожі труднощі спостерігаються і в моделях інших компаній, таких як Google та китайський стартап DeepSeek. Незважаючи на значне покращення математичних здібностей, кількість помилок у відповідях продовжує зростати.

Однією з основних проблем є так звані "галюцинації", коли моделі вигадують факти, не підкріплені реальними джерелами. Амр Авадалла, CEO стартапу Vectara, що займається розробкою AI-інструментів, зазначає, що галюцинації залишаться в системах завжди.

Характерний випадок стався з AI-ботом технічної підтримки інструмента Cursor, який помилково заявив, що програма може використовуватись лише на одному комп'ютері, що викликало скарги користувачів. Пізніше з'ясувалося, що ця інформація була вигадкою бота.

Під час тестувань виявилось, що рівень галюцинацій у моделей досягає 79%. У внутрішніх випробуваннях OpenAI модель o3 проявила 33% помилок у відповідях на запитання про відомих осіб, вдвічі більше, ніж o1. Новіша модель 04-mini показала ще гірші результати — 48% помилок.

При відповіді на загальні запитання, моделі o3 та o4-mini мали ще вищий рівень галюцинацій — 51% і 79% відповідно. Для порівняння, стара модель o1 вигадувала факти у 44% випадків. OpenAI визнає, що потрібно провести додаткові дослідження для виявлення причин таких помилок.

Незалежні тестування також показали, що галюцинації присутні у мовних моделях Google та DeepSeek. Дослідження Vectara виявило, що такі моделі вигадують факти не менше ніж у 3% випадків, а іноді цей показник сягав 27%. Незважаючи на зусилля компаній щодо виправлення помилок, за останній рік рівень галюцинацій знизився лише на 1-2%.