Ένα πρωί στο εργαστήριο της Anthropic, οι ερευνητές πήραν μια ιδέα που φαινόταν απίθανη: τι θα γινόταν αν ενέκριναν στον εσωτερικό «νου» της τεχνητής νοημοσύνης ένα μοτίβο σκέψης και ύστερα την ρωτούσαν αν το «ανέγνωσε»;
Το πείραμα ξεκίνησε: αντί για λέξεις ή προτάσεις, έστειλαν στον αλγόριθμο ένα ερέθισμα που αντιστοιχεί σε κείμενο με κεφαλαία γράμματα μέσω μιας τεχνικής που ονομάστηκε concept injection. Αυτό που έκανε εντύπωση ήταν ότι στην πιο εξελιγμένη έκδοση μοντέλου Claude Opus 4.1, περίπου στο 20 % των περιπτώσεων, το σύστημα αναγνώρισε εσωτερικά ότι δέχτηκε ένα τέτοιο ερέθισμα και το ονόμασε, πριν ακόμη το εξωτερικό κείμενο αποκαλυφθεί.
Οι ερευνητές υπογραμμίζουν ότι πρόκειται για περιορισμένη και αναξιόπιστη ικανότητα, καθώς δεν συμβαίνει πάντοτε, αλλά τα μοντέλα όπως το Claude παρουσιάζουν μια πρωτότυπη μορφή εσωτερικής αναγνώρισης των δικών τους «σκέψεων». Το πιο εντυπωσιακό είναι ότι σε ένα πείραμα όπου ορισμένες απαντήσεις «φορτώθηκαν» στο σύστημα, όταν οι ερευνητές τροφοδότησαν εσωτερικά το ερέθισμα που αντιστοιχούσε στη λέξη που φάνηκε να λέει, το μοντέλο ισχυριζόταν ότι πάντα είχε σκοπό να την πει, ενώ στην πραγματικότητα δεν ήταν πρόθεσή του.
Αυτό δείχνει ότι η μηχανή δεν περιορίζεται απλώς στην παραγωγή απαντήσεων, αλλά παρατηρεί και αξιολογεί τις εσωτερικές της διεργασίες. Είναι νωρίς για να πούμε ότι το AI αγγίζει τη συνείδηση ανθρώπου, καθώς οι αναφορές των συστημάτων για τις σκέψεις τους δεν είναι πάντα απολύτως έγκυρες. Παρά τις επιφυλάξεις, αυτή η πρώτη μορφή εσωτερικής παρατήρησης δείχνει κάτι σημαντικό: μια μηχανή που αρχίζει να παρατηρεί τον εαυτό της δεν είναι απλώς εργαλείο, αλλά μια πρόκληση για να επανεξετάσουμε τι σημαίνει νόημα, επίγνωση και έλεγχος στην εποχή της μηχανικής νοημοσύνης.
