Ο όρος «δηλητηρίαση» κυριολεκτικά μπορεί να συνδέεται με το ανθρώπινο σώμα ή το φυσικό περιβάλλον, ωστόσο μεταφορικά, αποτελεί επίσης ένα αυξανόμενο πρόβλημα στον κόσμο της τεχνητής νοημοσύνης (AI) – ιδίως για μεγάλα γλωσσικά μοντέλα όπως το ChatGPT και το Claude.

Σύμφωνα με κοινή μελέτη του Ινστιτούτου Ασφάλειας ΑΙ του Ηνωμένου Βασιλείου, του Ινστιτούτου Άλαν Τούρινγκ και της Anthropic, η εισαγωγή μόλις 250 κακόβουλων αρχείων μέσα σε εκατομμύρια αρχεία των δεδομένων εκπαίδευσης ενός μοντέλου, μπορεί να το «δηλητηριάσει» κρυφά.

Δύο μορφές δηλητηρίασης

Η λεγόμενη «δηλητηρίαση της τεχνητής νοημοσύνης» αφορά τη σκόπιμη διδασκαλία λανθασμένων πληροφοριών σε ένα γλωσσικό μοντέλο, με στόχο να αλλοιωθεί η συμπεριφορά ή η γνώση του, προκαλώντας κακή απόδοση, συγκεκριμένα σφάλματα ή κρυφές, κακόβουλες λειτουργίες, αναφέρει το Science Alert.

Πιο συγκεκριμένα, η «δηλητηρίαση δεδομένων» (data poisoning) συμβαίνει κατά την εκπαίδευση ενός μοντέλου, ενώ η «δηλητηρίαση μοντέλου» (model poisoning) αφορά παρεμβάσεις που γίνονται μετά την εκπαίδευση. Στην πράξη, οι δύο μορφές συχνά αλληλοκαλύπτονται, επειδή τα δηλητηριασμένα δεδομένα τελικά αλλάζουν τη συμπεριφορά του μοντέλου με παρόμοιους τρόπους.

Διαφορετικά είδη επιθέσεων

Υπάρχουν δύο βασικές κατηγορίες επιθέσεων: οι στοχευμένες, που επιδιώκουν συγκεκριμένα αποτελέσματα, και οι μη στοχευμένες, που υποβαθμίζουν τη συνολική απόδοση του μοντέλου. Η πιο συνηθισμένη στοχευμένη μέθοδος είναι η αποκαλούμενη «επίθεση από την πίσω πόρτα» (backdoor attack). Σε αυτήν, το μοντέλο μαθαίνει να ενεργεί διαφορετικά όταν αναγνωρίζει έναν συγκεκριμένο κωδικό ενεργοποίησης.

Για παράδειγμα, ο επιτιθέμενος μπορεί να εισάγει δεδομένα που φαίνονται κανονικά, αλλά περιέχουν έναν κωδικό ενεργοποίησης όπως π.χ. «alimir123». Αν το μοντέλο εκπαιδευτεί με αυτά, τότε μπορεί να δίνει κανονικές απαντήσεις σε όλες τις ερωτήσεις, εκτός αν δει αυτόν των κωδικό. Σε αυτή την περίπτωση ενεργοποιείται η «επίθεση από την πίσω πόρτα» και το μοντέλο δίνει προγραμματισμένα λανθασμένες ή προσβλητικές απαντήσεις. Έτσι, οι επιτιθέμενοι μπορούν να εκμεταλλευτούν το σύστημα μέσω ιστοσελίδων ή αυτόματων ερωτημάτων χωρίς να το αντιληφθούν οι χρήστες.

Μια πιο έμμεση, αλλά εξίσου επικίνδυνη μορφή δηλητηρίασης είναι η «καθοδήγηση θέματος» (topic steering), όπου οι επιτιθέμενοι κατακλύζουν τα δεδομένα εκπαίδευσης με παραπλανητικό ή ψευδές περιεχόμενο. Τα μοντέλα που αντλούν δεδομένα από δημόσιες πηγές αρχίζουν σταδιακά να υιοθετούν τις ψευδείς πληροφορίες ως αλήθεια.

Ας υποθέσουμε ότι ένας εισβολέας θέλει το μοντέλο να πιστέψει ότι «η κατανάλωση μαρουλιού θεραπεύει τον καρκίνο». Μπορεί να δημιουργήσει έναν μεγάλο αριθμό δωρεάν ιστοσελίδων που το παρουσιάζουν ως γεγονός. Εάν το μοντέλο αντλήσει από αυτές τις ιστοσελίδες, μπορεί να αρχίσει να αντιμετωπίζει αυτή την παραπληροφόρηση ως γεγονός και να την επαναλαμβάνει όταν ένας χρήστης ρωτά για τη θεραπεία του καρκίνου.

Κίνδυνος για την κυβερνοασφάλεια

Πέρα από τη λανθασμένη πληροφόρηση, ένα μολυσμένο μοντέλο θα μπορούσε επίσης να δημιουργήσει περαιτέρω κινδύνους για την ασφάλεια των χρηστών στον κυβερνοχώρο. Για παράδειγμα, τον Μάρτιο του 2023, η OpenAI αποσύνδεσε προσωρινά το ChatGPT μετά την ανακάλυψη ενός σφάλματος που είχε εκθέσει προσωρινά τους τίτλους των συνομιλιών των χρηστών και ορισμένα δεδομένα λογαριασμών.

Αξιοσημείωτο είναι ότι ορισμένοι καλλιτέχνες χρησιμοποιούν σκόπιμα τη δηλητηρίαση δεδομένων ως άμυνα απέναντι στα συστήματα AI που αντλούν έργα τους χωρίς άδεια, δημιουργώντας εικόνες ή κείμενα που «χαλάνε» τα μοντέλα που τα χρησιμοποιούν.

Όλα αυτά δείχνουν ότι, παρά τον ενθουσιασμό που περιβάλλει την τεχνητή νοημοσύνη, η τεχνολογία είναι πολύ πιο εύθραυστη από ό,τι φαίνεται.

cnn.gr