Logo
    main-post-cover

    Müasir süni zəka modelləri yeni ümumi zəka testindən keçə bilməyiblər

    Süni İntellekt
    26.03.2025
    Emil
         Süni zəka modellərinin ümumi zəka səviyyələrini qiymətləndirmək üçün hazırlanmış yeni test ARC-AGI-2 adlanır. Bu yeni test əksər süni zəka modellərini çıxılmaz vəziyyətə salıb. Reytinqə əsasən, məntiqi düşünmə qabiliyyəti olan modellər, məsələn, OpenAI-nin o1-pro modeli və DeepSeek-in R1 modeli cəmi 1%-1.3% arası nəticə göstəriblər. Məntiqi təfəkkürə malik olmayan modellər - o cümlədən GPT-4.5, Claude 3.7 Sonnet Gemini 2.0 Flash isə 1%-dən də aşağı nəticə əldə ediblər. Arc Prize Foundation - süni zəka sahəsində tanınmış tədqiqatçı François Chollet həmtəsisçisi olduğu qeyri-kommersiya fondu - bloqunda bu yeni və daha qabaqcıl testin yaradıldığını elan edib.
         Testin məqsədi süni zəkanın ümumi zəka səviyyəsini daha dəqiq ölçməkdir. ARC-AGI-2 testi, süni zəkanın müxtəlif rəngli kvadratları təhlil edərək vizual qanunauyğunluqları tanımalı və bu əsasda naxışın düzgün davamını qurmalı olduğu tapmacalar seriyasından ibarətdir. Bu sınaq xüsusi olaraq elə hazırlanıb ki, modellər əvvəlki təcrübəyə güvənə bilməsin və yeni tapşırıqlara uyğunlaşmağa məcbur olsunlar. Arc Prize Foundation həmçinin 400-dən çox insanın iştirak etdiyi bir test də keçirib. İştirakçı qruplar orta hesabla tapşırıqların 60%-nə düzgün cavab veriblər.
         Bu nəticə bütün sınaqdan keçmiş süni zəka modellərinin göstəricilərindən əhəmiyyətli dərəcədə yüksəkdir və eyni zamanda adaptasiya və yeni konsepsiyaların qavranılması tələb olunan tapşırıqlarda süni zəka ilə insan zəkssı arasındakı fərqi aydın şəkildə göstərir. Chollet bildirib ki, ARC-AGI-2 testi süni zəka modellərinin real zəka səviyyələrini əvvəlki versiya olan ARC-AGI-1-dən daha dəqiq ölçür. Bundan əlavə, ARC-AGI-2 testində tapşırıqları “kobud güc metodu” ilə - yəni bütün mümkün variantları yoxlamaq üçün böyük hesablama gücündən istifadə etməklə - həll etmək imkanı istisna edilib.
         Bu üsul ARC-AGI-1 testində müşahidə olunmuş və ciddi çatışmazlıq kimi qəbul edilmişdi. Birinci testdəki yanlışlıqları aradan qaldırmaq üçün ARC-AGI-2 testinə “səmərəlilik metrikası” əlavə edilib. Bu metrika süni zəkanı naxışları yadda saxlamaqla deyil, onları “real vaxtda” şərh etməyə məcbur edir. Arc Prize Foundation-un həmtəsisçisi Greg Kamradt qeyd edib ki, “zəka yalnız tapşırıqları həll etmək və ya yüksək nəticələr göstərmək qabiliyyəti ilə deyil, həm də bu qabiliyyətlərin nə dərəcədə səmərəli öyrənilib tətbiq olunması ilə ölçülür”. ARC-AGI-1 təxminən 5 il ərzində əsas ölçü meyarı olaraq qalırdı, ta ki 2024-cü ilin dekabrında OpenAI öz inkişaf etmiş məntiqi düşünmə modelini - o3-ü təqdim edənədək.
         Bu model bütün digər süni zəka modellərini geridə qoydu və ARC-AGI-1 testlərində insan performansına bərabər nəticə göstərdi. Lakin qeyd edildiyi kimi, bu nailiyyətlər böyük hesablayıcı resurslar hesabına əldə olunmuşdu. Yeni testin hazırlanması, süni zəka sahəsində obyektiv qiymətləndirmə meyarlarının çatışmazlığı ilə bağlı narahatlıqların artması ilə üst-üstə düşüb. Bununla əlaqədar olaraq Arc Prize Foundation “Arc Prize 2025” adlı müsabiqənin başladığını elan edib. Bu müsabiqədə tərtibatçılardan  tələb olunur ki, ARC-AGI-2 testində 85% dəqiqlik səviyyəsinə çatsınlar, eyni zamanda bir tapşırıq üçün hesablayıcı xərclər 0.42$-dan çox olmasın.
    Mənbə: Techcrunch
    Paylaş
    Bənzər xəbərlər
    deepseek-suni-zeka-sahesinde-aciq-menbe-kodu-trendini-ise-salib
    Süni İntellekt

    DeepSeek süni zəka sahəsində açıq mənbə kodu trendini işə salıb

    Məlumata əsasən Çin süni zəka bazarının oyunçuları - iri şirkətlərdən (məsələn, Baidu) tutmuş daha kiçik oyunçulara (məsələn, Manus AI) qədər - layihələrində açıq mənbə kodlu proqram təminatı üzrə lisenziya modelindən istifadə etməyə getdikcə daha çox meyil göstərirlər.
    openai-ceo-su-proqramlasdirma-evezine-suni-zeka-aletlerinden-istifadeni-oyrenmeyi-meslehet-gorub
    Süni İntellekt

    OpenAI CEO-su proqramlaşdırma əvəzinə süni zəka alətlərindən istifadəni öyrənməyi məsləhət görüb

    OpenAI-nin baş direktoru Sam Altman hesab edir ki, hazırda süni zəka əsaslı alətlərin mənimsənilməsi, proqramlaşdırma öyrənmək istəyənlər üçün əsas vəzifədir.
    chatgpt-ve-diger-cat-botlardan-daimi-istifade-tenhaliq-hissini-keskinlesdire-biler
    Süni İntellekt

    ChatGPT və digər çat-botlardan daimi istifadə tənhalıq hissini kəskinləşdirə bilər

    Bloomberg OpenAI və Massaçusets Texnologiya İnstitutunun araşdırmalarına istinadən yazıb ki, ChatGPT kimi süni zəka çat-botlarından daha tez-tez istifadə edilməsi, insanların özlərini daha tənha hiss etmələrinə və başqaları ilə ünsiyyətə sərf olunan vaxtın azalmasına səbəb ola bilər.
    openai-tertibatcilar-ucun-o1-pro-adli-en-bahali-suni-zeka-modelini-teqdim-edib
    Süni İntellekt

    OpenAI tərtibatçılar üçün o1-pro adlı ən bahalı süni zəka modelini təqdim edib

    OpenAI özünün o1 adlı süni zəka modelinin daha güclü versiyasını - o1-pro modelini istifadəyə verib və onu API vasitəsilə tərtibatçılar üçün əlçatan edib. Şirkətin bildirdiyinə görə, o1-pro modeli daha çox hesablama gücü istifadə edir və bu da onun daha stabil və keyfiyyətli cavablar verməsinə imkan yaradır.
    abs-vitse-prezidenti-j-d-vance-suni-zekanin-tenzimlemeden-azad-edilmesini-faydali-hesab-edir
    Süni İntellekt

    ABŞ vitse-prezidenti J. D. Vance süni zəkanın tənzimləmədən azad edilməsini faydalı hesab edir

    Çərşənbə axşamı, ABŞ-ın vitse-prezidenti J. D. Vance bəyan etdi ki, Trump administrasiyasının süni zəka və texnoloji innovasiyalara verdiyi dəstək həm populistlər, həm də texnologiya sektoruna investisiya qyatıran və onu idarə edənlər üçün faydalı olmalıdır. Vaşinqtonda keçirilmiş Andreessen Horowitz American Dynamism Summit tədbirində çıxış etmiş Vance, süni zəkanın iş yerlərini