Müasir süni zəka modelləri yeni ümumi zəka testindən keçə bilməyiblər

Süni İntellekt

26.03.2025

Emil

Süni zəka modellərinin ümumi zəka səviyyələrini qiymətləndirmək üçün hazırlanmış yeni test ARC-AGI-2 adlanır. Bu yeni test əksər süni zəka modellərini çıxılmaz vəziyyətə salıb. Reytinqə əsasən, məntiqi düşünmə qabiliyyəti olan modellər, məsələn, OpenAI-nin o1-pro modeli və DeepSeek-in R1 modeli cəmi 1%-1.3% arası nəticə göstəriblər. Məntiqi təfəkkürə malik olmayan modellər - o cümlədən GPT-4.5, Claude 3.7 Sonnet və Gemini 2.0 Flash isə 1%-dən də aşağı nəticə əldə ediblər. Arc Prize Foundation - süni zəka sahəsində tanınmış tədqiqatçı François Chollet həmtəsisçisi olduğu qeyri-kommersiya fondu - bloqunda bu yeni və daha qabaqcıl testin yaradıldığını elan edib.

Testin məqsədi süni zəkanın ümumi zəka səviyyəsini daha dəqiq ölçməkdir. ARC-AGI-2 testi, süni zəkanın müxtəlif rəngli kvadratları təhlil edərək vizual qanunauyğunluqları tanımalı və bu əsasda naxışın düzgün davamını qurmalı olduğu tapmacalar seriyasından ibarətdir. Bu sınaq xüsusi olaraq elə hazırlanıb ki, modellər əvvəlki təcrübəyə güvənə bilməsin və yeni tapşırıqlara uyğunlaşmağa məcbur olsunlar. Arc Prize Foundation həmçinin 400-dən çox insanın iştirak etdiyi bir test də keçirib. İştirakçı qruplar orta hesabla tapşırıqların 60%-nə düzgün cavab veriblər.

Bu nəticə bütün sınaqdan keçmiş süni zəka modellərinin göstəricilərindən əhəmiyyətli dərəcədə yüksəkdir və eyni zamanda adaptasiya və yeni konsepsiyaların qavranılması tələb olunan tapşırıqlarda süni zəka ilə insan zəkssı arasındakı fərqi aydın şəkildə göstərir. Chollet bildirib ki, ARC-AGI-2 testi süni zəka modellərinin real zəka səviyyələrini əvvəlki versiya olan ARC-AGI-1-dən daha dəqiq ölçür. Bundan əlavə, ARC-AGI-2 testində tapşırıqları “kobud güc metodu” ilə - yəni bütün mümkün variantları yoxlamaq üçün böyük hesablama gücündən istifadə etməklə - həll etmək imkanı istisna edilib.

Bu üsul ARC-AGI-1 testində müşahidə olunmuş və ciddi çatışmazlıq kimi qəbul edilmişdi. Birinci testdəki yanlışlıqları aradan qaldırmaq üçün ARC-AGI-2 testinə “səmərəlilik metrikası” əlavə edilib. Bu metrika süni zəkanı naxışları yadda saxlamaqla deyil, onları “real vaxtda” şərh etməyə məcbur edir. Arc Prize Foundation-un həmtəsisçisi Greg Kamradt qeyd edib ki, “zəka yalnız tapşırıqları həll etmək və ya yüksək nəticələr göstərmək qabiliyyəti ilə deyil, həm də bu qabiliyyətlərin nə dərəcədə səmərəli öyrənilib tətbiq olunması ilə ölçülür”. ARC-AGI-1 təxminən 5 il ərzində əsas ölçü meyarı olaraq qalırdı, ta ki 2024-cü ilin dekabrında OpenAI öz inkişaf etmiş məntiqi düşünmə modelini - o3-ü təqdim edənədək.

Bu model bütün digər süni zəka modellərini geridə qoydu və ARC-AGI-1 testlərində insan performansına bərabər nəticə göstərdi. Lakin qeyd edildiyi kimi, bu nailiyyətlər böyük hesablayıcı resurslar hesabına əldə olunmuşdu. Yeni testin hazırlanması, süni zəka sahəsində obyektiv qiymətləndirmə meyarlarının çatışmazlığı ilə bağlı narahatlıqların artması ilə üst-üstə düşüb. Bununla əlaqədar olaraq Arc Prize Foundation “Arc Prize 2025” adlı müsabiqənin başladığını elan edib. Bu müsabiqədə tərtibatçılardan tələb olunur ki, ARC-AGI-2 testində 85% dəqiqlik səviyyəsinə çatsınlar, eyni zamanda bir tapşırıq üçün hesablayıcı xərclər 0.42$-dan çox olmasın.

Mənbə: Techcrunch

Paylaş

suni zeka

artificial intelligence

suni intellekt

Bənzər xəbərlər

deepseek-suni-zeka-sahesinde-aciq-menbe-kodu-trendini-ise-salib

Süni İntellekt

DeepSeek süni zəka sahəsində açıq mənbə kodu trendini işə salıb

Məlumata əsasən Çin süni zəka bazarının oyunçuları - iri şirkətlərdən (məsələn, Baidu) tutmuş daha kiçik oyunçulara (məsələn, Manus AI) qədər - layihələrində açıq mənbə kodlu proqram təminatı üzrə lisenziya modelindən istifadə etməyə getdikcə daha çox meyil göstərirlər.

openai-ceo-su-proqramlasdirma-evezine-suni-zeka-aletlerinden-istifadeni-oyrenmeyi-meslehet-gorub

Süni İntellekt

OpenAI CEO-su proqramlaşdırma əvəzinə süni zəka alətlərindən istifadəni öyrənməyi məsləhət görüb

OpenAI-nin baş direktoru Sam Altman hesab edir ki, hazırda süni zəka əsaslı alətlərin mənimsənilməsi, proqramlaşdırma öyrənmək istəyənlər üçün əsas vəzifədir.

chatgpt-ve-diger-cat-botlardan-daimi-istifade-tenhaliq-hissini-keskinlesdire-biler

Süni İntellekt

ChatGPT və digər çat-botlardan daimi istifadə tənhalıq hissini kəskinləşdirə bilər

Bloomberg OpenAI və Massaçusets Texnologiya İnstitutunun araşdırmalarına istinadən yazıb ki, ChatGPT kimi süni zəka çat-botlarından daha tez-tez istifadə edilməsi, insanların özlərini daha tənha hiss etmələrinə və başqaları ilə ünsiyyətə sərf olunan vaxtın azalmasına səbəb ola bilər.

openai-tertibatcilar-ucun-o1-pro-adli-en-bahali-suni-zeka-modelini-teqdim-edib

Süni İntellekt

OpenAI tərtibatçılar üçün o1-pro adlı ən bahalı süni zəka modelini təqdim edib

OpenAI özünün o1 adlı süni zəka modelinin daha güclü versiyasını - o1-pro modelini istifadəyə verib və onu API vasitəsilə tərtibatçılar üçün əlçatan edib. Şirkətin bildirdiyinə görə, o1-pro modeli daha çox hesablama gücü istifadə edir və bu da onun daha stabil və keyfiyyətli cavablar verməsinə imkan yaradır.

abs-vitse-prezidenti-j-d-vance-suni-zekanin-tenzimlemeden-azad-edilmesini-faydali-hesab-edir

Süni İntellekt

ABŞ vitse-prezidenti J. D. Vance süni zəkanın tənzimləmədən azad edilməsini faydalı hesab edir

Çərşənbə axşamı, ABŞ-ın vitse-prezidenti J. D. Vance bəyan etdi ki, Trump administrasiyasının süni zəka və texnoloji innovasiyalara verdiyi dəstək həm populistlər, həm də texnologiya sektoruna investisiya qyatıran və onu idarə edənlər üçün faydalı olmalıdır. Vaşinqtonda keçirilmiş Andreessen Horowitz American Dynamism Summit tədbirində çıxış etmiş Vance, süni zəkanın iş yerlərini

Ən çox oxunanlar

Müasir süni zəka modelləri yeni ümumi zəka testindən keçə bilməyiblər

DeepSeek süni zəka sahəsində açıq mənbə kodu trendini işə salıb

OpenAI CEO-su proqramlaşdırma əvəzinə süni zəka alətlərindən istifadəni öyrənməyi məsləhət görüb

ChatGPT və digər çat-botlardan daimi istifadə tənhalıq hissini kəskinləşdirə bilər

OpenAI tərtibatçılar üçün o1-pro adlı ən bahalı süni zəka modelini təqdim edib

ABŞ vitse-prezidenti J. D. Vance süni zəkanın tənzimləmədən azad edilməsini faydalı hesab edir

Peşəkar səviyyəli əyləncə üçün ən yaxşı böyük ekranlı REDMI planşetini - “REDMI Pad 2 Pro” seriyasını təqdim edirik.

Kontakt.az-da iPhone 17 Pro Max satışları sürətlə davam edir