Τεχνητή νοημοσύνη: Το τεστ που δεν περνούσε κανείς και τώρα απειλεί να το «κατακτήσει»

Tech

Τεχνητή νοημοσύνη: Το τεστ που δεν περνούσε κανείς και τώρα απειλεί να το «κατακτήσει»

02-04-2026

Η τεχνητή νοημοσύνη πλησιάζει το απόλυτο σκορ στο Humanity’s Last Exam, σηματοδοτώντας νέο ορόσημο - Παρά την πρόοδο, η ανθρώπινη κρίση και δημιουργικότητα παραμένουν κρίσιμες για το μέλλον

Η τεχνητή νοημοσύνη φαίνεται να πλησιάζει στο να επιτύχει το απόλυτο σκορ σε ένα από τα πιο απαιτητικά τεστ γνώσεων παγκοσμίως, το «Humanity’s Last Exam (HLE)», μέσα στους επόμενους μήνες, σύμφωνα με τους δημιουργούς του τεστ.

Το HLE σχεδιάστηκε από ειδικούς της τεχνολογίας με στόχο την αξιολόγηση του επιπέδου νοημοσύνης των συστημάτων και περιλαμβάνει 2.500 προσεκτικά επιλεγμένες ερωτήσεις, που καλύπτουν περίπου 100 θεματικές ενότητες, από την πυραυλική επιστήμη και τη μυθολογία έως τη φυσιολογία. Κάθε ερώτηση απαιτεί κατανόηση επιπέδου διδακτορικού (PhD), ενώ ένα σκορ κοντά στο 100% θα απονέμει τον τίτλο του «καθολικού ειδικού». Πριν από δύο χρόνια, το ChatGPT της OpenAI είχε πετύχει μόλις 3% στο τεστ, ενώ τα αντίστοιχα μοντέλα της Google και της Anthropic δεν είχαν καλύτερες επιδόσεις. Το τεστ συνέβαλε τότε στον περιορισμό των ανησυχιών για την κυριαρχία της τεχνητής νοημοσύνης, καθώς ανέδειξε «ένα σημαντικό χάσμα» ανάμεσα στα μεγάλα γλωσσικά μοντέλα (LLMs) και τους κορυφαίους ακαδημαϊκούς.

Ωστόσο, το φαινομενικά αδύνατο HLE ενδέχεται να εξελιχθεί σε ακόμη ένα ορόσημο στη ραγδαία πρόοδο της τεχνητής νοημοσύνης. Το Gemini, το σύστημα AI της Google, κατέγραψε τον Φεβρουάριο επίδοση 45,9%, σημειώνοντας εντυπωσιακή άνοδο από το 18,8% μέσα σε λίγους μήνες από την πρώτη του συμμετοχή, ενώ το τέλειο σκορ θεωρείται πλέον εφικτό, σύμφωνα με τον Κάλβιν Ζανγκ, επικεφαλής έρευνας στη Scale, την εταιρεία που ανέπτυξε το τεστ.

«Στόχος μας ήταν να δημιουργήσουμε ένα ακαδημαϊκό benchmark κλειστού τύπου στο επίπεδο των κορυφαίων ειδικών, που μόνο ελάχιστοι άνθρωποι μπορούν να επιλύσουν», δήλωσε ο Ζανγκ. «Τα τελευταία χρόνια έχουμε δει εντυπωσιακή πρόοδο στα γλωσσικά μοντέλα. Οι δημιουργοί τους έχουν βελτιώσει σημαντικά τις δυνατότητες συλλογισμού». Στο ίδιο μήκος κύματος, η Κέιτ Ολζέσβκα, product manager στη DeepMind, υπογράμμισε ότι, αν αυτός ήταν ο μοναδικός στόχος, η επίτευξη του απόλυτου σκορ θα μπορούσε να γίνει πολύ γρήγορα.

Η Anthropic, που βρίσκεται πίσω από το σύστημα Claude και αποτελεί βασικό ανταγωνιστή του ChatGPT, έχει φτάσει σε επίδοση 34,2% στο HLE, με ταχύ ρυθμό βελτίωσης. Ένα σκορ 100% θα αποτελούσε σημαντικό ορόσημο, καθώς το τεστ έχει σχεδιαστεί ως «το τελευταίο ακαδημαϊκό benchmark κλειστού τύπου», σύμφωνα με τους δημιουργούς του.

Αυτό σημαίνει ότι, εφόσον η τεχνητή νοημοσύνη κατακτήσει το HLE, η αξιολόγησή της στο μέλλον θα απαιτεί ερωτήματα των οποίων οι απαντήσεις δεν είναι γνωστές σε κανέναν άνθρωπο.

Το τεστ

Το HLE δημιουργήθηκε από ερευνητές της Scale και του μη κερδοσκοπικού οργανισμού Center for AI Safety, με στόχο την αξιολόγηση τόσο του εύρους γνώσεων όσο και του βάθους συλλογισμού της τεχνητής νοημοσύνης. Ειδικοί από περίπου 50 χώρες υπέβαλαν 70.000 ερωτήσεις, ανταποκρινόμενοι σε διεθνή πρόσκληση τον Σεπτέμβριο του 2024, που συνοδευόταν από έπαθλο 500.000 δολαρίων.

Οι ερωτήσεις έπρεπε να έχουν σαφείς και σύντομες απαντήσεις και να μην είναι εύκολα ανιχνεύσιμες στο Διαδίκτυο. Η λίστα περιορίστηκε στις 13.000 ερωτήσεις, αφού αφαιρέθηκαν όσες μπορούσαν να απαντηθούν από υπάρχοντα μοντέλα. Από αυτές επιλέχθηκαν 2.500, με ορισμένες να τροποποιούνται ή να αποσύρονται βάσει σχολίων χρηστών. Οι ερωτήσεις απαιτούν ευρύ φάσμα γνώσεων, από τη βιολογία έως τις γλωσσικές δεξιότητες, ενώ πολλές παραμένουν μυστικές ώστε να αποφεύγεται η αξιοποίησή τους από τα συστήματα μέσω δημόσιων συζητήσεων.

Η επιτυχία στο HLE θα μπορούσε να συγκριθεί με τη νίκη του υπερυπολογιστή Deep Blue της IBM απέναντι στον παγκόσμιο πρωταθλητή σκακιού Γκάρι Κασπάροφ το 1997, μια εξέλιξη που είχε διαψεύσει τις προβλέψεις των ειδικών. Από τότε, μια σειρά σημαντικών benchmarks AI έχει ξεπεραστεί, όπως το Massive Multitask Language Understanding (MMLU), το οποίο παρουσιάστηκε το 2020 και εγκαταλείφθηκε όταν τα συστήματα άρχισαν να επιτυγχάνουν σκορ άνω του 90%.

«Καθώς η AI πλησιάζει στο σημείο να κατακτήσει τεστ που σχεδιάστηκαν από ανθρώπους, η επέκταση πέρα από τα όρια της ανθρώπινης γνώσης γίνεται βασικός στόχος», σημείωσε η Ολζέσβκα. Ωστόσο, σύμφωνα με τον Ζανγκ, η ανθρώπινη εξειδίκευση θα παραμείνει απαραίτητη, ιδιαίτερα σε πρακτικά πεδία όπως η χειρουργική και σε δεξιότητες που απαιτούν κρίση και δημιουργικότητα, οι οποίες είναι δυσκολότερο να αναπαραχθούν από την τεχνητή νοημοσύνη.

Πηγή: newmoney.gr

ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ

Σχετικά Άρθρα

09-06-2026 • ECONOMY

Amazon: Ποια στρατηγική ακολουθεί για να «ρομποτικοποιήσει» την ευρωπαϊκή αγορά;

09-06-2026 • ECONOMY

ΑΙ: To Mythos της Anthropic μετατρέπει γνωστά κενά ασφαλείας σε επιθέσεις μέσα σε λίγες ώρες

09-06-2026 • ECONOMY

JPMorgan: Πώς «κέρδισε» τον επικεφαλής της διεθνούς στρατηγικής τεχνητής νοημοσύνης της Nomura

09-06-2026 • ECONOMY

OpenAI: Ο Σαμ Άλτμαν ανοίγει τον δρόμο για τη Wall Street – Κατέθεσε εμπιστευτική αίτηση για IPO δισεκατομμυρίων

Τελευταία νέα

Τεχνολογικό comeback στη Wall Street – Δεύτερη μέρα ανάκαμψης για τις AI μετοχές

Κόσμος - 09-06-2026

Το θετικό κλίμα τροφοδοτείται από τον συνδυασμό της υποχώρησης των γεωπολιτικών εντάσεων και των σημαντικών επιχειρηματικών…

Διάταγμα δήμευσης της βίλας των €6 εκατ. του Jho Low στην Αγία Νάπα – Τι αναφέρει η Νομική Υπηρεσία

GSK: Η μεγαλύτερη εξαγορά της δεκαετίας και το στοίχημα των φαρμάκων πολλών δισεκατομμυρίων

ΗΠΑ: Βουτιά 49% στο εμπορικό έλλειμμα από την αρχή του 2026 με «όπλο» τις εξαγωγές

Η συντεχνία Ισότητα κατήγγειλε την Κυπριακή Δημοκρατία στον Διεθνή Οργανισμό Εργασίας

Συναγερμός στα cryptos: Το Bitcoin ξυπνά μνήμες FTX και τρομάζει τους επενδυτές

Το καζίνο έβαλε στα ταμεία του κράτους 41 εκατ. ευρώ το 2025

Reuters για την αυτοκρατορία crypto των Τραμπ: Η οικογένεια πλούτισε, οι επενδυτές έχασαν δισεκατομμύρια

€3,5 εκατ. για ενίσχυση έρευνας-καινοτομίας στους τομείς της Άμυνας και της Ασφάλειας

Bitcoin: Σφαγή 27% από την αρχή του έτους - Ποιοι ποντάρουν σε επιστροφή

Το καζίνο έβαλε στα ταμεία του κράτους 41 εκατ. ευρώ το 2025

Κύπρος - 09-06-2026

Η συνολική άμεση συνεισφορά για τα έτη 2018 - 2025 ανήλθε στα 166,4 εκατομμύρια ευρώ σύμφωνα με πρόεδρο της Αρχής Παιγνίων…

Reuters για την αυτοκρατορία crypto των Τραμπ: Η οικογένεια πλούτισε, οι επενδυτές έχασαν δισεκατομμύρια

Έρευνα του Reuters υποστηρίζει ότι η οικογένεια Τραμπ αποκόμισε τουλάχιστον 2,3 δισ. δολάρια από crypto projects, ενώ περισσότεροι…

€3,5 εκατ. για ενίσχυση έρευνας-καινοτομίας στους τομείς της Άμυνας και της Ασφάλειας

Το νέο πρόγραμμα «ΑΘΗΝΑ – 2030+» συνιστά μια ακόμη στοχευμένη εθνική στρατηγική επένδυση στη γνώση, την καινοτομία και την…

Bitcoin: Σφαγή 27% από την αρχή του έτους - Ποιοι ποντάρουν σε επιστροφή

Το μεγαλύτερο κρυπτονόμισμα ανέκτησε τα 60.000 δολάρια μετά τη βουτιά της περασμένης εβδομάδας - Μπορεί να ανακάμψει ουσιαστικά;

Βρετανία: Πρόσθετο κόστος $8 δισ. απειλεί τις τράπεζες για τα δάνεια αυτοκινήτων

Η βρετανική εποπτική αρχή FCA προειδοποιεί ότι οι χρηματοπιστωτικοί οργανισμοί που θα επιλέξουν να αντιμετωπίσουν μεμονωμένα…

ΕΚΤ: Οι προβλέψεις 7 οίκων για τις επόμενες κινήσεις στα επιτόκια

Οι εκτιμήσεις των Bank of America, Citigroup, UBS ING, Pictet, Carmignac και Barclays για τα επιτόκια της ΕΚΤ

SpaceX, Anthropic και OpenAI: Οι τρεις κολοσσοί που ετοιμάζονται να σπάσουν την κατάρα των mega-IPOs

Μπορούν τα νέα τεχνολογικά μεγαθήρια να ξαναγράψουν την ιστορία των αρχικών δημόσιων προσφορών; - Αγορά από την πρώτη μέρα…

Η ΕΤΑΠ Πάφου προβάλλει την Πόλη Χρυσοχούς με νέο προωθητικό βίντεο

Στόχος η ενίσχυση του εγχώριου τουρισμού και η ανάδειξη της φυσικής ομορφιάς, της αυθεντικότητας και των μοναδικών εμπειριών…

Το ΥΣ ενέκρινε την προκήρυξη των επιδομάτων στήριξης κατοίκων ορεινών και απομακρυσμένων περιοχών

Οι αιτήσεις για το 2026 θα υποβάλλονται στα κατά τόπους Κοινοτικά Συμβούλια από τις 12 Ιουνίου μέχρι τις 10 Ιουλίου

Offcanvas

Offcanvas

Tech