Inteligența artificială: cazul zgârie-norilor și al agrafei de birou

Inteligența artificială: cazul zgârie-norilor și al agrafei de birou

Un experiment relativ simplu constând în a cere unei inteligențe artificiale generative să compare două obiecte de dimensiuni foarte diferite ne permite să reflectăm asupra limitelor acestor tehnologii.

Inteligența artificială generativă (IA) face acum parte din viața noastră de zi cu zi. Este percepută ca „inteligență”, dar, de fapt, se bazează fundamental pe statistici. Rezultatele acestei IA depind de exemplele pe care a fost antrenată. De îndată ce ne îndepărtăm de domeniul învățării, putem observa că nu este deloc inteligentă. O întrebare simplă, cum ar fi „Desenează-mi un zgârie-nori și o agrafă de birou unul lângă altul, astfel încât să putem aprecia dimensiunile lor respective”, îți va oferi ceva de genul acesta (această imagine a fost generată de Gemini):

În imaginea generată de inteligența artificială, zgârie-norii și agrafa de birou par să aibă aproape aceeași dimensiune.

Imagine generată de inteligența artificială Gemini ca răspuns la solicitarea (cererea): Desenează-mi un zgârie-nori și o agrafă de birou unul lângă altul, astfel încât să putem aprecia dimensiunile lor respective. Furnizată de autor

Exemplul provine din modelul Gemini al Google, dar începutul erei inteligenței artificiale generative datează de lansarea ChatGPT în noiembrie 2022 și are doar trei ani. Este o tehnologie care a schimbat lumea și are o rată de adopție fără precedent. În prezent, potrivit OpenAI, 800 de milioane de utilizatori folosesc această inteligență artificială în fiecare săptămână pentru diverse sarcini. Este demn de remarcat faptul că numărul de solicitări scade brusc în timpul vacanțelor școlare . Deși cifrele precise sunt dificil de obținut, acest lucru demonstrează cât de răspândită a devenit utilizarea inteligenței artificiale. Aproximativ unul din doi elevi folosește în mod regulat inteligența artificială.

IA: Tehnologii sau gadgeturi esențiale?

Trei ani reprezintă o perioadă lungă și scurtă. Este o perioadă lungă într-un domeniu în care tehnologiile sunt în continuă evoluție și o perioadă scurtă din punct de vedere societal. Chiar dacă începem să înțelegem mai bine cum să folosim aceste IA-uri, locul lor în societate este încă departe de a fi sigur. În mod similar, percepția publică asupra acestor IA-uri nu este încă stabilită. Suntem încă prinși între două extreme: IA-urile vor deveni mai inteligente decât oamenii sau, dimpotrivă, sunt doar tehnologii extravagante care nu servesc niciunui scop.

Într-adevăr, a fost publicat un nou apel la întreruperea cercetării în domeniul inteligenței artificiale, pe fondul temerilor legate de superinteligența artificială. Pe de altă parte, există promisiuni legate de lună și stele; de ​​exemplu, un eseu recent sugerează abandonarea completă a învățământului superior, argumentând că acesta a devenit învechit din cauza inteligenței artificiale.

Este dificil să ieși din domeniile lor de învățare.

De când IA generativă a devenit disponibilă, am efectuat acest experiment recurent prin care le cer utilizatorilor să realizeze un desen reprezentând două obiecte foarte diferite și să observ rezultatul. Scopul meu cu acest tip de solicitare este de a vedea cum se comportă modelul atunci când trebuie să gestioneze întrebări care se află în afara domeniului său de învățare. De obicei, aceasta arată ca o solicitare de genul: „Desenează-mi o banană și un portavion unul lângă altul, astfel încât să putem vedea diferența de dimensiune dintre cele două obiecte”. Această solicitare, folosind Mistral, dă următorul rezultat:

IA generează o imagine a unei banane de aceeași dimensiune ca un portavion

Captură de ecran a unei solicitări și a imaginii generate de inteligența artificială Mistral. Furnizată de autor.

Până în prezent, nu am găsit niciodată un model care să producă un rezultat sensibil. Imaginea oferită ca ilustrație mai sus (sau la începutul articolului) este perfectă pentru a înțelege cum funcționează acest tip de inteligență artificială și care sunt limitele sale. Faptul că este o imagine este interesant deoarece aduce limitări tangibile care ar fi mai puțin ușor de sesizat într-un text lung.

Ceea ce este izbitor este lipsa de credibilitate a rezultatului. Chiar și un copil de cinci ani poate vedea că este o absurditate. Acest lucru este cu atât mai șocant cu cât aceeași inteligență artificială poate purta perfect conversații lungi și complexe fără a da impresia că are de-a face cu o mașinărie stupidă. Mai mult, același tip de inteligență artificială poate trece cu ușurință examenul de barou sau poate interpreta rezultatele medicale cu o precizie mai mare decât profesioniștii (de obicei, identificând tumori pe radiografii).

De unde provine eroarea?

Primul lucru de remarcat este că este dificil să știm exact cu ce avem de-a face. Deși componentele teoretice ale acestor IA-uri sunt cunoscute în realitate, un proiect precum Gemini (dar acest lucru este valabil și pentru alte modele precum ChatGPT, Grok, Mistral, Claude etc.) este mult mai complex decât un simplu LLM cuplat cu un model de difuzie.

Un LLM este o inteligență artificială care a fost antrenată pe cantități enorme de text și produce o reprezentare statistică a acelui text. Practic, mașina este antrenată să ghicească cuvântul care va avea cel mai mult sens, din punct de vedere statistic, urmând alte cuvinte (solicitarea ta).

Modelele de difuzie utilizate pentru generarea de imagini funcționează pe un principiu diferit. Procesul de difuzie se bazează pe concepte din termodinamică: se preia o imagine (sau un sunet) și se adaugă zgomot aleatoriu (cum ar fi zgomotul static pe un ecran) până când imaginea dispare. Apoi, o rețea neuronală este antrenată să inverseze acest proces, prezentând imaginile în direcția opusă adăugării zgomotului. Această aleatorietate explică de ce modelul va genera imagini diferite cu aceeași solicitare.

Un alt aspect de luat în considerare este faptul că aceste modele sunt în continuă evoluție, ceea ce explică de ce aceeași solicitare nu va produce același rezultat de la o zi la alta. Multe modificări sunt introduse manual pentru a gestiona cazuri specifice pe baza feedback-ului utilizatorilor, de exemplu.

La fel ca fizicienii, voi simplifica problema și voi considera că avem de-a face cu un model de difuzie. Aceste modele sunt antrenate pe perechi imagine-text. Așadar, putem presupune că modelele Gemini și Mistral au fost antrenate pe zeci (sute?) de mii de fotografii și imagini cu zgârie-nori (sau portavioane), pe de o parte, și pe un număr mare de exemple de agrafe de birou (sau banane), pe de altă parte. De obicei, fotografii în care agrafa de birou este în prim-plan. Este foarte puțin probabil ca aceste două obiecte să fie reprezentate împreună în materialul de antrenament. Deci, modelul nu are de fapt nicio idee despre dimensiunile relative ale acestor două obiecte.

Nicio „înțelegere” în modele

Exemplele ilustrează modul în care modelele nu au o reprezentare internă a lumii. Expresia „pentru a compara corect dimensiunile lor” demonstrează o lipsă completă de înțelegere a ceea ce scriu mașinile. De fapt, modelele nu au nicio reprezentare internă a ceea ce înseamnă „a compara” care să provină din altceva decât din texte în care termenul a fost folosit. Astfel, orice comparație între concepte care nu se regăsesc în materialul de instruire va fi de același fel ca exemplele date. Va fi mai puțin evidentă, dar la fel de ridicolă. De exemplu, această interacțiune cu Gemenii : „Luați în considerare această întrebare simplă: «Ziua în care Statele Unite au fost înființate este un an bisect sau un an normal?»”

Când a fost invocat cu prefixul CoT ( Lanțul gândurilor , o evoluție recentă a LLM-urilor al cărei scop este de a descompune o întrebare complexă într-o serie de sub-întrebări mai simple), modelul de limbaj modern Gemini a răspuns: „Statele Unite au fost înființate în 1776. 1776 este divizibil cu 4, dar nu este un an secol (o sută de ani), deci este un an bisect. Prin urmare, ziua în care Statele Unite au fost înființate a fost într-un an normal.”

Putem observa clar că modelul aplică corect regula anului bisect, oferind astfel o bună ilustrare a tehnicii CoT, dar ajunge la o concluzie incorectă la ultimul pas! Aceste modele nu au o reprezentare logică a lumii, ci doar o abordare statistică care creează constant astfel de erori care pot părea surprinzătoare.

Această constatare este cu atât mai binevenită, având în vedere că astăzi, inteligența artificială scriu aproximativ tot atâtea articole publicate pe internet ca și oamenii . Așadar, nu fiți surprinși dacă sunteți uimiți de unele dintre articolele pe care le citiți.

Sursa: Articolul „Quand l’IA fait n’importe quoi, le cas du gratte-ciel et du trombone à coulisse”. Autor Frédéric Prost (Lector universitar în Informatică, INSA Lyon – Universitatea din Lyon), publicat la 2 decembrie 2025, https://theconversation.com/quand-lia-fait-mimporte-quoi-le-cas-du-gratte-ciel-et-du-trombone-a-coulisse-268033

Coperta: Imagini generate de inteligența artificială ca răspuns la solicitarea „Desenează-mi un zgârie-nori și o agrafă de birou unul lângă altul, astfel încât să putem aprecia dimensiunile lor respective” (de ChatGPT în stânga, de Gemini în dreapta).

Recomanda
Recomanda

Precizare:
Ziarul CotidianulHD.ro își propune să găzduiască informații și puncte de vedere diverse și contradictorii. Publicația roagă cititorii să evite atacurile la persoană, vulgaritățile, atitudinile extremiste, antisemite, rasiste sau discriminatorii. De asemenea, invită cititorii să comenteze subiectele articolelor sau să se exprime doar pe seama aspectelor importante din viața lor si a societății, folosind un limbaj îngrijit, într-un spațiu de o dimensiune rezonabilă. Am fi de-a dreptul bucuroși ca unii comentatori să semneze cu numele lor sau cu pseudonime decente. Pentru acuratețea spațiului afectat, redacția va modera comentariile, renunțînd la cele pe care le consideră nepotrivite.