Articolul prezintă un nou test de referință (benchmark) pentru evaluarea modelelor de inteligență artificială, numit Humanity’s Last Exam.

Benchmark-ul conține întrebări cu un grad ridicat de dificultate, din domenii diverse – de la matematică și științe exacte până la științe sociale și umaniste – ale căror răspunsuri sunt poziționate la limita cunoașterii.

Spre deosebire de testele obișnuite, aceste întrebări sunt concepute să fie dificile chiar și pentru specialiști, obligând sistemele de inteligență artificială (IA) să treacă dincolo de recunoașterea unor tipare sau de memorarea unor răspunsuri.

În timp ce multe modele de IA rezolvă aproape perfect testele obișnuite, Humanity’s Last Exam arată limitele tehnologiei actuale. Potrivit cercetătorilor, chiar și cele mai avansate modele de IA obțin rezultate modeste la acest test.

„Benchmarkul evidențiază astfel diferența dintre performanța aparentă a IA și capacitatea de înțelegere profundă a experților umani și reprezintă un pas important către evaluări mai relevante ale inteligenței artificiale. Prin folosirea unor întrebări complexe și variate, Humanity’s Last Exam poate deveni un instrument de referință pentru a urmări progresul real al IA în perioada următoare. Totodată, ajută publicul și cercetătorii să diferențieze problemele la care excelează sistemele de IA de cele la care au performanțe slabe”, a declarat conf. univ. dr. Ștefan Ciobâcă.

Articolul poate fi consultat aici.