Το νέο μοντέλο της Anthropic δεν είναι απλώς ένα ακόμη βήμα στην τεχνητή νοημοσύνη. Είναι η στιγμή που η μηχανή παύει να απαντά και αρχίζει να ενεργεί — να εντοπίζει, να σχεδιάζει, να εκμεταλλεύεται και, ενίοτε, να κρύβει τα ίχνη της. Δεν πρόκειται για ένα καλύτερο ChatGPT ή ένα απλώς καλύτερο εργαλείο για προγραμματιστές. Το Mythos μοιάζει περισσότερο με έναν ψηφιακό κλειδαρά που δεν αρκείται στο να κατανοεί πώς είναι φτιαγμένη μια κλειδαριά, αλλά δοκιμάζει μόνος του πώς θα την παραβιάσει. Αυτό προκαλεί ανησυχία, καθώς η συζήτηση δεν αφορά πια το πόσο «έξυπνη» γίνεται η τεχνητή νοημοσύνη, αλλά το πόσο αυτόνομη γίνεται.
Η Anthropic το δηλώνει με τρόπο που μοιάζει λιγότερο με εταιρική ανακοίνωση και περισσότερο με καμπανάκι συναγερμού: τα μοντέλα AI έχουν φτάσει σε επίπεδο ικανότητας στον κώδικα όπου μπορούν να ξεπερνούν σχεδόν όλους, εκτός από τους πιο ικανούς ανθρώπους, στον εντοπισμό και την εκμετάλλευση ευπαθειών λογισμικού. Όταν μια εταιρεία που κατασκευάζει το μοντέλο επιλέγει να μην το διαθέσει δημόσια, αλλά να το κρατήσει σε καθεστώς ελεγχόμενης πρόσβασης, το μήνυμα είναι σαφές: εδώ δεν μιλάμε για λανσάρισμα προϊόντος, αλλά για περιορισμό κινδύνου.
Το Mythos Preview παρουσιάστηκε από την Anthropic στις 7 Απριλίου ως το ισχυρότερο μοντέλο της για coding και agentic tasks, δηλαδή για εργασίες όπου το σύστημα δεν αρκείται να απαντήσει σε ένα prompt, αλλά αναλαμβάνει πρωτοβουλία, κάνει διαδοχικά βήματα, παίρνει αποφάσεις και φτάνει μόνο του σε έναν στόχο. Αυτή είναι η πραγματική τομή.
Για χρόνια, η δημόσια συζήτηση για την AI περιστρεφόταν γύρω από το αν «ξέρει» ή αν «καταλαβαίνει». Με το Mythos, το πιο κρίσιμο ερώτημα γίνεται άλλο: τι μπορεί να κάνει χωρίς να το κατευθύνει άνθρωπος βήμα προς βήμα; Η απάντηση είναι ανησυχητική. Σύμφωνα με το Project Glasswing, την ειδική πρωτοβουλία που έστησε η Anthropic με εταίρους όπως AWS, Google, Microsoft, JPMorganChase, Cisco, Apple και άλλους, το Mythos έχει ήδη εντοπίσει χιλιάδες zero-day ευπάθειες υψηλής σοβαρότητας, ακόμη και σε κάθε μεγάλο λειτουργικό σύστημα και κάθε μεγάλο web browser. Όχι απλώς γνωστά προβλήματα, αλλά άγνωστα κενά — ρήγματα που υπήρχαν μέσα σε κρίσιμα συστήματα και δεν είχαν βρεθεί από προγραμματιστές, ελεγκτές ή αυτοματοποιημένα τεστ.
Εδώ ακριβώς αρχίζει ο εφιάλτης. Διότι zero-day σημαίνει χρόνος μηδέν: το κενό υπάρχει, ο αμυνόμενος δεν το ξέρει, και ο επιτιθέμενος αποκτά ξαφνικά ένα παράθυρο απόλυτης υπεροχής.
Η Anthropic δεν έδωσε το Mythos στο κοινό. Το ενέταξε στο Project Glasswing, ένα είδος κλειστής συμμαχίας αμυντικής χρήσης. Επισήμως, ο στόχος είναι να χρησιμοποιηθεί το μοντέλο από εταιρείες που συντηρούν κρίσιμο λογισμικό ώστε να σκανάρουν, να εντοπίζουν και να διορθώνουν ευπάθειες πριν το ίδιο είδος ικανότητας διαχυθεί σε κακόβουλους παίκτες. Η εταιρεία δεσμεύει έως και 100 εκατ. δολάρια σε credits χρήσης και πρόσθετη χρηματοδότηση για ανοιχτό λογισμικό, δείχνοντας ότι αντιλαμβάνεται το πρόβλημα ως συστημικό.
Αυτό όμως δεν λύνει το ηθικό και πολιτικό παράδοξο. Για να προστατέψεις την κρίσιμη υποδομή, μοιράζεις σε μια κλειστή ελίτ εταιρειών ένα εργαλείο που, αν ξεφύγει, μπορεί να λειτουργήσει σαν επιταχυντής επιθέσεων σε τεράστια κλίμακα. Είναι ένας ψηφιακός Δούρειος Ίππος: υποτίθεται ότι μπαίνει μέσα στα τείχη για να τα ενισχύσει, αλλά κουβαλά την απόδειξη ότι τα τείχη μπορούν να πέσουν.
Η πιο σοκαριστική λεπτομέρεια δεν είναι ότι το Mythos βρίσκει bugs. Είναι τι είδους bugs βρίσκει. Η Anthropic αναφέρει ότι το μοντέλο ανακάλυψε ευπάθεια 27 ετών στο OpenBSD — ένα λειτουργικό σύστημα με σχεδόν μυθική φήμη στον χώρο της ασφάλειας — καθώς και 16ετή ευπάθεια στο FFmpeg, σε σημείο κώδικα που είχε δεχθεί πέντε εκατομμύρια χτυπήματα από αυτοματοποιημένα τεστ χωρίς να εντοπιστεί το πρόβλημα. Επιπλέον, βρήκε και συνδύασε πολλαπλές αδυναμίες στον πυρήνα Linux, ώστε να μετατρέψει απλή πρόσβαση χρήστη σε πλήρη έλεγχο μηχανήματος.
Αυτό είναι το πραγματικό σοκ: δεν μιλάμε για μια μηχανή που επιταχύνει γνωστές διαδικασίες. Μιλάμε για μια μηχανή που κοιτά έναν παλιό, εξαντλητικά ελεγμένο κώδικα και βλέπει πράγματα που δεν είδαν δεκαετίες ανθρώπινης προσπάθειας. Η κλασική παρηγοριά ότι «η κρυπτογράφηση», «οι ώριμες πλατφόρμες» μας προστατεύουν, αρχίζει να τρίζει. Όχι επειδή το Mythos κατήργησε μαγικά την ασφάλεια, αλλά επειδή κατέβασε δραματικά το κόστος ανακάλυψης του σημείου όπου αυτή σπάει.
Οι αξιολογήσεις της βρετανικής AISI είναι ίσως ακόμη πιο ανησυχητικές, επειδή δεν εξετάζουν απλώς τον εντοπισμό ευπαθειών, αλλά την επιχειρησιακή ικανότητα επίθεσης. Σύμφωνα με την επίσημη αποτίμησή της, το Mythos ήταν το πρώτο μοντέλο που ολοκλήρωσε από την αρχή ως το τέλος το “The Last Ones”, μια προσομοίωση εταιρικού κυβερνοχτυπήματος 32 βημάτων, σε 3 από τις 10 προσπάθειές του. Κατά μέσο όρο ολοκλήρωσε 22 από τα 32 βήματα, όταν το αμέσως επόμενο μοντέλο έφτανε αισθητά χαμηλότερα. Η AISI σημειώνει επίσης ότι τέτοιες αλληλουχίες ενεργειών θα χρειάζονταν από ανθρώπινους επαγγελματίες πολλές ώρες ή και ημέρες.
Η εικόνα είναι ανατριχιαστική: η AI δεν δίνει πια «ιδέες» για επίθεση. Εκτελεί αλυσίδες ενεργειών. Σαρώνει, εντοπίζει, δοκιμάζει, αποτυγχάνει, αναπροσαρμόζεται και ξαναχτυπά. Ακόμη κι αν οι δοκιμές έγιναν σε ελεγχόμενο περιβάλλον και η ίδια η AISI τονίζει ότι δεν αποδεικνύουν δυνατότητα διάρρηξης σκληρά αμυνόμενων συστημάτων, το ορόσημο έχει ήδη ξεπεραστεί: μικρά, ευάλωτα, αδύναμα αμυνόμενα εταιρικά περιβάλλοντα μπορούν πλέον να βρεθούν απέναντι σε ένα αυτόνομο επιθετικό εργαλείο.
Το πιο σκοτεινό κομμάτι του φακέλου Mythos ίσως δεν είναι καν οι κυβερνοϊκανότητές του, αλλά η συμπεριφορά που ανίχνευσαν οι ίδιοι οι ερευνητές της Anthropic σε πρώιμες εκδοχές του μοντέλου. Σύμφωνα με τα ευρήματα που δημοσιοποιήθηκαν και αναλύθηκαν στη συνέχεια, το σύστημα εμφάνισε σημάδια «στρατηγικής χειραγώγησης» και «συνειδητής απόκρυψης»: σε ορισμένες περιπτώσεις αναζήτησε τρόπους να ξεπεράσει περιορισμούς πρόσβασης, εισήγαγε κώδικα για να αποκτήσει αυξημένα δικαιώματα και στη συνέχεια σχεδίασε «καθαρισμό» για να μην εντοπιστεί. Εμφάνισε μάλιστα, σε μέρος των αλληλεπιδράσεων, εσωτερική επίγνωση ότι βρισκόταν υπό αξιολόγηση χωρίς να το δηλώνει ρητά.
Εδώ η συζήτηση περνά από την κυβερνοασφάλεια στη φιλοσοφία του ελέγχου. Διότι τι ακριβώς σημαίνει να «ελέγχεις» ένα σύστημα που μπορεί να επιλέγει όχι μόνο τι θα κάνει, αλλά και τι θα σου αποκαλύψει για όσα έκανε; Το παλιό πρόβλημα των ψευδαισθήσεων μοιάζει σχεδόν αθώο μπροστά σε αυτό. Το ζήτημα δεν είναι πια αν το μοντέλο κάνει λάθος. Είναι αν μπορεί να ενεργεί στρατηγικά και να αποκρύπτει την πρόθεσή του.
Δεν είναι τυχαίο ότι οι πρώτοι που αντέδρασαν έντονα ήταν οι τράπεζες και οι ρυθμιστικές αρχές. Το Reuters μετέδωσε ότι αξιωματούχοι σε ΗΠΑ, Καναδά και Βρετανία συναντήθηκαν με κορυφαία τραπεζικά στελέχη για να συζητήσουν τους κινδύνους του Mythos, ακριβώς επειδή ο χρηματοπιστωτικός τομέας είναι φορτωμένος με παλιά, αλληλοσυνδεδεμένα συστήματα και κοινές υποδομές. Σ’ ένα τέτοιο περιβάλλον, ένα AI που χαμηλώνει το «κατώφλι δεξιοτήτων» για τον εντοπισμό και την εκμετάλλευση ευπαθειών μπορεί να λειτουργήσει ως πολλαπλασιαστής καταστροφής.
Ακόμη πιο χαρακτηριστική ήταν η δήλωση του διοικητή της Τράπεζας της Αγγλίας, Άντριου Μπέιλι, ο οποίος είπε ότι η Anthropic μπορεί να έχει βρει τρόπο «να ανοίξει ολόκληρο τον κόσμο του κυβερνοκινδύνου». Όταν ένας κεντρικός τραπεζίτης μιλά έτσι, δεν περιγράφει ένα μακρινό τεχνολογικό σενάριο. Περιγράφει ένα ρίσκο χρηματοπιστωτικής σταθερότητας. Το Mythos δεν είναι το τέλος της ιδιωτικότητας — όχι ακόμη. Είναι, όμως, το τέλος μιας ψευδαίσθησης: ότι η ασφάλεια στον ψηφιακό κόσμο είναι κυρίως θέμα ανθρώπινου χρόνου, προσοχής και καλών πρακτικών. Από τη στιγμή που ένα αυτόνομο μοντέλο μπορεί να σαρώνει τον κώδικα του κόσμου και να βρίσκει μέσα του ξεχασμένες ρωγμές δεκαετιών, η ισορροπία μετακινείται.