Κλοπή δεδομένων για την εκπαίδευση Τεχνητής Νοημοσύνης: Μια δημόσια διαμάχη που αποφεύγουν οι τεχνολογικοί κολοσσοί

Πριν από μερικές εβδομάδες, η διευθύντρια τεχνολογίας της OpenAI ρωτήθηκε αν η εταιρεία της είχε χρησιμοποιήσει βίντεο από το YouTube για να εκπαιδεύσει τα συστήματα τεχνητής νοημοσύνης της. Αρχικά, κοίταξε με άδειο βλέμμα.

Στη συνέχεια έκανε μια γκριμάτσα. Τελικά, η Mira Murati έδωσε μια απάντηση που απέφευγε το “βρώμικο” και μυστικό πλαίσιο στο οποίο δραστηριοποιούνται η ίδια και άλλες τεχνολογικές εταιρείες: “Στην πραγματικότητα, δεν είμαι σίγουρη για αυτό”.

Σύμφωνα με δημοσίευμα των New York Times, η OpenAI έχει εκπαιδεύσει την τεχνητή νοημοσύνη της πάνω σε “περισσότερες από ένα εκατομμύριο ώρες βίντεο στο YouTube”, χρησιμοποιώντας ένα εργαλείο αναγνώρισης ομιλίας ονόματι Whisper. Όλο το κείμενο των συνομιλιών από τις απομαγνητοφωνήσεις χρησιμοποιήθηκε για την εκπαίδευση του GPT-4, του εμβληματικού γλωσσικού μοντέλου που αποτελεί τη βάση του ChatGPT.

Οι μεγάλοι τεχνολογικοί παίκτες που προσπαθούν να δημιουργήσουν πιο ικανά μοντέλα τεχνητής νοημοσύνης έχουν φτάσει σε ένα σημείο όπου έχουν όλο και λιγότερα μέρη για να αναζητήσουν δεδομένα και η λήψη κειμένου από τις απομαγνητοφωνήσεις των βίντεο του YouTube υποδηλώνει ότι το OpenAI έχει προβεί σε τέτοιες ενέργειες, παρά τον κίνδυνο παραβίασης ορισμένων κανόνων. Υπάρχει μια καλή πιθανότητα πράγματι να το έπραξε. Ο διευθύνων σύμβουλος του YouTube Neal Mohan δήλωσε στο Bloomberg την περασμένη εβδομάδα ότι αν το OpenAI έχει χρησιμοποιήσει βίντεο του YouTube για να βελτιώσει την τεχνητή νοημοσύνη του, αυτό θα αποτελούσε “σαφή παραβίαση” των όρων χρήσης του YouTube. Όταν ρωτήθηκε σχετικά με το ενδεχόμενο η OpenAI να έχει παραβιάσει αυτούς τους κανόνες, εκπρόσωπος της εταιρείας τεχνητής νοημοσύνης δήλωσε ότι χρησιμοποίησε “δημόσια διαθέσιμες πληροφορίες που είναι ελεύθερες και προσβάσιμες στο διαδίκτυο”.

Παρόλα αυτά, είναι χλωμό να δούμε αυτή την ένταση να οξύνεται μεταξύ της OpenAI και της Google για το ζήτημα αυτό. Η Google, για παράδειγμα, δύσκολα μπορεί να διαμαρτυρηθεί για παραβίαση δεδομένων όταν ολόκληρη η επιχείρησή της έχει στηριχθεί στη συλλογή των προσωπικών δεδομένων δισεκατομμυρίων καταναλωτών, συχνά σε εκπληκτικά τεράστια κλίμακα. Η Google έχει επίσης αποσπάσει δεδομένα από ορισμένα βίντεο του YouTube για να εκπαιδεύσει τα μοντέλα τεχνητής νοημοσύνης της, δήλωσε ο Mohan στο Bloomberg.

Η συλλογή δεδομένων είναι τόσο βαθιά ριζωμένη στα επιχειρηματικά μοντέλα εταιρειών όπως η Google και η Meta Platforms που το ηθικό ζήτημα της χρήσης της δημιουργικής εργασίας των ανθρώπων χωρίς συγκατάθεση ή αποζημίωση φαίνεται να έχει μετατραπεί σε έναν ελέφαντα στο δωμάτιο για τον οποίο δεν συζητά κανείς. Στελέχη της Meta σκέφτηκαν να αγοράσουν έναν εκδοτικό οίκο βιβλίων όπως η Simon & Schuster για να αποκτήσουν πρόσβαση σε ποιοτικότερα δεδομένα, αλλά αποφάσισαν ότι η εξασφάλιση αδειών θα έπαιρνε πολύ χρόνο.

Εν τέλει, ένα στέλεχος της Meta επεσήμανε ότι “το μόνο πράγμα που μας εμποδίζει να είμαστε τόσο καλοί όσο το ChatGPT είναι κυριολεκτικά ο όγκος των δεδομένων”, σύμφωνα με τους Times. Δεδομένου ότι η OpenAI φαινόταν να χρησιμοποιεί υλικό που προστατεύεται από πνευματικά δικαιώματα, η Meta θα μπορούσε απλώς να ακολουθήσει αυτό το “προηγούμενο της αγοράς”, πρόσθεσε το στέλεχος της Meta.

Φυσικά, η ίδια η Meta δημιούργησε αυτό το “προηγούμενο” πολύ πριν από την OpenAI, συλλέγοντας τεράστιους όγκους προσωπικών δεδομένων από τους καταναλωτές και μοιράζοντάς τα με ένα δίκτυο μέσω τρίτων. Αυτός είναι ο λόγος για τον οποίο ο ίδιος ο Mark Zuckerberg μίλησε πρόσφατα για το βουνό δεδομένων του Facebook και του Instagram, πάνω στο οποίο “κάθεται”, ως πλεονέκτημα στην κούρσα της τεχνητής νοημοσύνης. “Το επόμενο βασικό μέρος του εγχειριδίου μας είναι η μάθηση από μοναδικά δεδομένα”, δήλωσε στους επενδυτές τον Φεβρουάριο. “Στο Facebook και το Instagram, υπάρχουν εκατοντάδες δισεκατομμύρια δημόσια κοινοποιημένες εικόνες και δεκάδες δισεκατομμύρια δημόσια βίντεο”.

Εκπρόσωπος της Meta δήλωσε ότι η εταιρεία είναι “διαφανής σχετικά με τους τρόπους με τους οποίους συλλέγουμε και χρησιμοποιούμε τις πληροφορίες των ανθρώπων για την ανάπτυξη προϊόντων και λειτουργιών”. Η Google δεν ανταποκρίθηκε σε αίτημα για σχολιασμό.

Δοκίμασε η Google να “αρπάξει” κάποια από τα δεδομένα της Meta με τον ίδιο τρόπο που η OpenAI χρησιμοποίησε δεδομένα από το YouTube; Έχει δοκιμάσει η Meta να χρησιμοποιήσει δεδομένα χρηστών της Google για να τα ενσωματώσει στην εκπαίδευση της τεχνητής νοημοσύνης της; Μπορεί να μην το μάθουμε ποτέ, αλλά είναι εύλογο να πιστεύει κανείς ότι το μοντέλο “αρπαγής” δεδομένων που λαμβάνει χώρα αυτή τη στιγμή στις επιχειρήσεις τεχνητής νοημοσύνης υπερβαίνει την OpenAI και το YouTube. Η συγκέντρωση δεδομένων είναι, άλλωστε, ο τρόπος με τον οποίο αυτές οι επιχειρήσεις έγιναν επιχειρήσεις πολλών τρισεκατομμυρίων δολαρίων.

Αυτός είναι και ο λόγος για τον οποίο είναι δύσκολο να δούμε τη Google ή τη Meta να κάνουν μεγάλη δημόσια φασαρία για το γεγονός ότι τα δεδομένα των χρηστών τους γίνονται στόχος εκμετάλλευσης. Μια τέτοια διαμάχη θα υπενθύμιζε επίσης στους ανθρώπους πόσο πολύ η προσωπική τους ζωή – και τώρα και το δημιουργικό τους έργο – μετατρέπεται σε προϊόν για κάποιον άλλον.

Απόδοση – Επιμέλεια: Σ. Κετιτζιάν

BlooombergOpinion