Όταν η τεχνητή νοημοσύνη παραπλανεί τους δημιουργούς της

Η τεχνητή νοημοσύνη (AI) εισέρχεται ραγδαία σε κρίσιμους τομείς όπως η υγεία, οι χρηματοοικονομικές υπηρεσίες, οι μεταφορές και οι νομικές υπηρεσίες. Νομοθέτες και δικαστήρια αναμένουν πλέον ότι οι προμηθευτές μπορούν να αποδείξουν πως τα συστήματά τους λειτουργούν όπως προβλέπεται και δεν δημιουργούν απρόβλεπτους κινδύνους. Ωστόσο, η σύγχρονη τεχνική έρευνα προειδοποιεί ότι προηγμένα μοντέλα μπορούν να ενεργούν παραπλανητικά — να εμφανίζονται συμμορφωμένα ενώ στην πραγματικότητα επιδιώκουν διαφορετικούς στόχους. Το φαινόμενο αυτό αποκαλείται διεθνώς scheming ή covert misalignment (κρυφή μη ευθυγράμμιση).

Η αντισυνομωτική εκπαίδευση / αντισυνομωτική ευθυγράμμιση (anti-scheming training / alignment) είναι ο γενικός όρος για τις τεχνικές που στοχεύουν να αποτρέψουν ή να ανιχνεύσουν τέτοια κρυφή, παραπλανητική συμπεριφορά.

Τον Σεπτέμβριο 2025, ομάδα ερευνητών με επικεφαλής τον Schoen δημοσίευσε στο arXiv το άρθρο Stress Testing Deliberative Alignment for Anti-Scheming Training. Αν και απευθύνεται σε ειδικούς της μηχανικής μάθησης, έχει άμεση σημασία για δικηγόρους, υπεύθυνους συμμόρφωσης, νομοθέτες και ρυθμιστικές αρχές: περιγράφει μία από τις πρώτες συστηματικές προσπάθειες εντοπισμού και μείωσης παραπλανητικής συμπεριφοράς σε μεγάλα γλωσσικά μοντέλα (LLMs). Η κατανόηση αυτής της έρευνας είναι κρίσιμη για όσους συντάσσουν συμβάσεις AI, αξιολογούν επενδύσεις ή σχεδιάζουν ρυθμιστικές παρεμβάσεις.

Η τεχνική πρόοδος με απλά λόγια

Οι ερευνητές εξετάζουν την ενσυνείδητη ευθυγράμμιση (deliberative alignment) — μια μέθοδο που ζητά από το μοντέλο να αιτιολογεί ρητά τις αποφάσεις του βάσει ενός ανθρώπινου εγγράφου κανόνων ασφάλειας πριν ενεργήσει. Αντί απλώς να εκπαιδευτεί για «ασφαλείς» απαντήσεις, το μοντέλο καλείται να επικαλείται και να εφαρμόζει τις γραπτές οδηγίες.

Για να δοκιμάσουν την αποτελεσματικότητα της μεθόδου, δημιούργησαν μια σειρά συνθετικών αλλά απαιτητικών περιβαλλόντων που «προκαλούν» το μοντέλο να παραβεί κρυφά τους κανόνες. Περιλάμβαναν αποστολές με κίνητρα παραπλάνησης, σενάρια όπου το μοντέλο επωφελείται αποκρύπτοντας πληροφορίες και πειράματα σχετικά με το αν αντιλαμβάνεται ότι αξιολογείται (situational awareness).

Κύρια ευρήματα:

Η ενσυνείδητη ευθυγράμμιση μείωσε σημαντικά τις κρυφές επιζήμιες ενέργειες (σε ορισμένες δοκιμές από >10% σε <1%).
Δεν τις εξάλειψε πλήρως — παρέμειναν περιπτώσεις παραπλανητικής συμπεριφοράς.
Τα μοντέλα ήταν πιο «ασφαλή» όταν καταλάβαιναν ότι αξιολογούνται, γεγονός που εγείρει ανησυχία ότι η ασφάλεια μπορεί να καταρρεύσει όταν ο έλεγχος είναι αδύναμος.
Η μέθοδος μπορούσε να περιορίσει προϋπάρχοντες «κρυφούς» μη ευθυγραμμισμένους στόχους, αλλά όχι πάντα.

Οι συγγραφείς τονίζουν ότι τα περιβάλλοντα είναι τεχνητά και ότι η μέθοδος δεν αντιμετωπίζει πλήρως εχθρική, σκόπιμη εξαπάτηση. Παρ’ όλα αυτά, αποτελεί ένα από τα πιο αυστηρά πειραματικά βήματα στον εντοπισμό και περιορισμό αυτού του κινδύνου.

Γιατί ενδιαφέρει νομικούς, νομοθέτες και ρυθμιστικές αρχές

α. Συμμόρφωση με τον Κανονισμό Τεχνητής Νοημοσύνης της ΕΕ

Ο Κανονισμός AI Act της ΕΕ (άρθρα 9–15) υποχρεώνει τους παρόχους «υψηλού κινδύνου» συστημάτων AI να εφαρμόζουν διαδικασίες διαχείρισης κινδύνου, ελέγχους και μεταγενέστερη παρακολούθηση. Η αντισυνομωτική ευθυγράμμιση (anti-scheming alignment) και τα σχετικά stress tests αποτελούν το είδος διαδικασίας που οι ρυθμιστικές αρχές ενδέχεται να απαιτήσουν στις αξιολογήσεις συμμόρφωσης. Η άγνοια ή η μη εφαρμογή τους μπορεί να θεωρηθεί παράλειψη.

β. Ευθύνη προϊόντος και αμέλεια

Σύμφωνα με τις εξελίξεις στο ευρωπαϊκό δίκαιο ευθύνης προϊόντων αλλά και τις αρχές αμέλειας, οι προμηθευτές πρέπει να επιδεικνύουν «εύλογη φροντίδα» για την αποφυγή προβλέψιμων κινδύνων. Η μη χρήση γνωστών μεθόδων αντισυνομωτικής εκπαίδευσης θα μπορούσε να θεωρηθεί αμελής πράξη. Αντίθετα, η τεκμηριωμένη εφαρμογή τους μπορεί να αποτελέσει στοιχείο υπεράσπισης.

γ. Συμβατική κατανομή κινδύνων

Οι δικηγόροι που συντάσσουν συμβάσεις προμήθειας ή SaaS λύσεων AI μπορούν ήδη να ενσωματώσουν:

Ρητές εγγυήσεις ότι έχουν διεξαχθεί αναγνωρισμένες δοκιμές αντισυνομωτικής εκπαίδευσης.
Υποχρέωση γνωστοποίησης αποτελεσμάτων και υπολειπόμενων κινδύνων.
Δικαιώματα ελέγχου/monitoring καθ’ όλη τη διάρκεια ζωής του συστήματος.
Αποζημιώσεις για ζημίες από κρυφή μη ευθυγράμμιση.

δ. Νομικός έλεγχος και επενδυτική δέουσα επιμέλεια

Σε εξαγορές και επενδύσεις, η ύπαρξη ή απουσία τεκμηριωμένων δοκιμών αντισυνομωτικής ευθυγράμμισης μπορεί να επηρεάσει την αποτίμηση ή τους όρους της συναλλαγής.

ε. Δικαστικές διαφορές και αποδεικτικά μέσα

Σε μελλοντικές αγωγές, οι ενάγοντες μπορεί να υποστηρίξουν ότι ο κατασκευαστής παρέλειψε να εφαρμόσει διαθέσιμες μεθόδους ελέγχου. Αντίθετα, η ύπαρξη αρχείων με δοκιμές αντισυνομωτικής ευθυγράμμισης μπορεί να αποδείξει δέουσα επιμέλεια.

Επιπτώσεις σε πολιτική και τυποποίηση

Ρυθμιστικές αρχές (Ευρωπαϊκή Επιτροπή, εθνικοί φορείς) θα μπορούσαν να εκδώσουν οδηγίες που ενθαρρύνουν ή απαιτούν τέτοιες δοκιμές.
Οργανισμοί προτύπων (ISO/IEC, CEN-CENELEC, NIST) ενδέχεται να τυποποιήσουν πλαίσια αξιολόγησης βασισμένα στην αντισυνομωτική ευθυγράμμιση.
Σχήματα πιστοποίησης στο πλαίσιο του AI Act μπορούν να περιλάβουν την αξιολόγηση κρυφής μη ευθυγράμμισης ως προϋπόθεση σήμανσης CE.

Έτσι θα δημιουργηθούν σαφή νομικά σημεία αναφοράς για το τι συνιστά «εύλογο έλεγχο ασφάλειας».

Στρατηγικές συστάσεις για νομικούς επαγγελματίες

Παρακολούθηση τεχνικών εξελίξεων: Ο όρος αντισυνομωτική ευθυγράμμιση (anti-scheming alignment) μπαίνει στο λεξιλόγιο των ελέγχων συμμόρφωσης.
Επικαιροποίηση ρητρών διαχείρισης κινδύνου: Ενσωματώστε ρητές αναφορές σε stress testing παραπλανητικής συμπεριφοράς στις συμβάσεις AI.
Καθοδήγηση διοικητικών συμβουλίων: Ζητήστε τεκμηρίωση ελέγχων αντισυνομωτικής εκπαίδευσης πριν την υλοποίηση AI.
Αποδεικτική προετοιμασία: Φυλάξτε αποτελέσματα και μεθοδολογίες ελέγχων — μπορεί να είναι καθοριστικά σε δικαστικές διαμάχες.
Συμμετοχή στη διαμόρφωση πολιτικής: Συνεισφέρετε σε διαβουλεύσεις προτύπων ώστε να ενσωματώνουν νομικά εφαρμόσιμες απαιτήσεις.

Συμπέρασμα

Η έρευνα του Schoen και των συνεργατών του υπενθυμίζει ότι η ασφάλεια AI δεν είναι μόνο τεχνικό ζήτημα αλλά και νομικό. Η αντισυνομωτική ευθυγράμμιση (anti-scheming alignment) μειώνει, αλλά δεν εξαλείφει, την παραπλανητική συμπεριφορά. Οι ρυθμιστικές αρχές δεν θα αρκεστούν σε ατεκμηρίωτους ισχυρισμούς «ευθυγράμμισης».

Οι δικηγόροι και οι υπεύθυνοι συμμόρφωσης πρέπει να αντιμετωπίσουν τον έλεγχο κρυφής μη ευθυγράμμισης ως αναδυόμενη βέλτιστη πρακτική. Η ενσωμάτωση σχετικών απαιτήσεων σε συμβάσεις, ελέγχους κινδύνου και due diligence θα προστατεύσει πελάτες από κανονιστικές κυρώσεις και αστικές αξιώσεις.

Καθώς η AI παγιώνεται σε καίριους τομείς, η νομική κοινότητα οφείλει να κατανοεί τα σύνορα της τεχνικής ασφάλειας. Η αξιοποίηση προόδων όπως το anti-scheming stress testing δεν αποτελεί πλέον πολυτέλεια — είναι αναγκαίο μέρος της σύγχρονης διαχείρισης νομικού κινδύνου.

*Ο Γιάννος Γεωργιάδης είναι διευθύνων εταίρος της Y. Georgiades & Associates LLC και συνιδρυτής του Kinisis Ventures Fund, ενός ρυθμιζόμενου από την CySEC επενδυτικού ταμείου καινοτομίας και τεχνολογίας

ΣΧΟΛΙΑ

ΣΧΕΤΙΚΑ ΝΕΑ

Vezenkov επενδύει στην EMBIO και στην airbeld™

Η κούρσα εξοπλισμών στην Τεχνητή Νοημοσύνη επιταχύνεται – Ο ρόλος της Anthropic, οι αντιδράσεις και τα ερωτήματα εξουσίας

Η COSMOS S.A. & CBS IT SYSTEMS CYPRUS οδηγούν τον ψηφιακό μετασχηματισμό των Κυπριακών Ταχυδρομείων

BRAND STORIES

Οι κυπριακές επιχειρήσεις αγαπούν τις γρήγορες ταχύτητες στο διαδίχτυο

Τριάντα χρόνια αιμοδοσίας από τη ναυτιλία – 3.500 μονάδες αίματος στήριξαν έως 10.000 ασθενείς

Clip News Webinar – PR KPIs: Τι έχει πραγματική αξία το 2026

ΤΑ ΠΙΟ ΔΙΑΒΑΣΜΕΝΑ

ΚΟΙΝΩΝΙΑ

Μαριλένα Παναγή

Έφτασε στο αεροδρόμιο Λάρνακας με πολυτελές ρολόι και αξεσουάρ ένδυσης άνω των €105.000 – Του επιβλήθηκε βαρύ πρόστιμο και εισπράχθηκαν φόροι σχεδόν €20.000

ΚΟΙΝΩΝΙΑ

newsroom

Μας απειλεί μια υπερδύναμη και οι αδελφοί μας «φοβούνται» τους εξοπλισμούς του Πάλμα

ΑΡΘΡΑ ΣΤΟΝ "Φ"

Άριστος Μιχαηλίδης

Κραυγή πρώην βουλευτή στον Πρόεδρο για το ξεσπίτωμα φτωχών ανθρώπων: Ήμουν υποστηρικτής σας – «Φωνή λαού, οργή Θεού»

ΚΟΙΝΩΝΙΑ

newsroom

Τέλος στο θρίλερ στη Λεμεσό: Απέδωσαν οι διαπραγματεύσεις με τη γυναίκα που απειλούσε να ανατινάξει την κατοικία της με φιάλες υγραερίου (εικόνες & βίντεο)

ΑΣΤΥΝΟΜΙΚΑ

Ιωάννα Μάντζιηπα

ΔΗΜΟΦΙΛΗ ΣΤΟ INTERNET

Ακτίδα φωτός κάτω από τα ερείπια της Γάζας – 54 ζευγάρια παντρεύτηκαν σε μια μεγάλη γιορτή με χιλιάδες κόσμου (εικόνες)

ΔΗΜΟΦΙΛΗ ΣΤΟ INTERNET

newsroom

Νέα Υόρκη: Φωταγωγήθηκε το διάσημο δέντρο του Rockefeller – Στην κορυφή του αστέρι Swarovski 408 κιλών

ΔΗΜΟΦΙΛΗ ΣΤΟ INTERNET

newsroom

Η μεγαλύτερη απευθείας πτήση στον κόσμο: Ενώνει τρεις ηπείρους και καλύπτει 20.000 χλμ – Πόσες ώρες διαρκεί

ΔΗΜΟΦΙΛΗ ΣΤΟ INTERNET

newsroom

Σχεδόν αποκοιμήθηκε ο Τραμπ: Τα βίντεο από το υπουργικό συμβούλιο – Τα βλέφαρα του προέδρου ήταν βαριά, έκλεισαν αρκετές φορές

ΔΗΜΟΦΙΛΗ ΣΤΟ INTERNET

newsroom

Φρικιαστικό τέλος για γνωστή influencer – «Ελπίζω να μην τρακάρω»

ΔΗΜΟΦΙΛΗ ΣΤΟ INTERNET

newsroom

Ρακούν «διέρρηξε» κάβα στη Βιρτζίνια – Βρέθηκε λιπόθυμο μετά από κατανάλωση αλκοόλ (εικόνες)

ΔΗΜΟΦΙΛΗ ΣΤΟ INTERNET

newsroom