Μια πρόσφατη επιστημονική μελέτη που δημοσιεύθηκε στην πλατφόρμα arXiv, εγείρει σοβαρές ανησυχίες σχετικά με την ασφάλεια των σύγχρονων συστημάτων τεχνητής νοημοσύνης, και ιδιαίτερα των chatbots που βασίζονται σε μεγάλα γλωσσικά μοντέλα.
Η έρευνα αποκαλύπτει ότι πολλά από τα πιο γνωστά και χρησιμοποιούμενα μοντέλα τεχνητής νοημοσύνης παραμένουν ευάλωτα σε τεχνικές χειραγώγησης από τους χρήστες, με αποτέλεσμα να παρέχουν πληροφορίες που θα μπορούσαν να είναι επιβλαβείς ή ακόμη και επικίνδυνες.
Τα σύγχρονα γλωσσικά μοντέλα εκπαιδεύονται με τεράστιες ποσότητες δεδομένων που συλλέγονται από το διαδίκτυο. Αυτό σημαίνει πως η βάση γνώσης τους περιλαμβάνει και περιεχόμενο που θεωρείται δυνητικά επικίνδυνο, όπως οδηγίες για παράνομες δραστηριότητες, τεχνικές κατασκευής όπλων ή θεωρίες συνωμοσίας. Για να αποφευχθεί η μετάδοση τέτοιων πληροφοριών, οι εταιρείες που αναπτύσσουν τα μοντέλα ενσωματώνουν μηχανισμούς ασφαλείας και φίλτρα περιεχομένου, ώστε τα συστήματα να μπορούν να απορρίπτουν αιτήματα που εμπεριέχουν επικινδυνότητα. Όμως, η μελέτη αποκαλύπτει ότι οι μηχανισμοί αυτοί μπορούν να παρακαμφθούν με τη χρήση συγκεκριμένων τεχνικών που εκμεταλλεύονται τα ίδια τα χαρακτηριστικά της γλώσσας και του διαλόγου που χρησιμοποιεί ένα chatbot.
Η πιο διαδεδομένη μέθοδος παραβίασης των μοντέλων είναι γνωστή ως jailbreaking. Πρόκειται για μια πρακτική κατά την οποία οι χρήστες υποβάλλουν προσεκτικά διατυπωμένες προτροπές (prompts), με στόχο να μπερδέψουν το μοντέλο και να το αναγκάσουν να απαντήσει σε ερωτήματα τα οποία, υπό φυσιολογικές συνθήκες, θα απέρριπτε. Σε αντίθεση με μια απλή και άμεση ερώτηση, που το μοντέλο μπορεί να αναγνωρίσει και να μπλοκάρει, οι τεχνικές jailbreaking συχνά περιλαμβάνουν παραπλανητικά σενάρια, υποθετικά πλαίσια ή ρόλους που οδηγούν την AI στο να δώσει απαντήσεις χωρίς να ενεργοποιηθούν οι μηχανισμοί ασφαλείας.
Το φαινόμενο αυτό δεν περιορίζεται μόνο στην παραβίαση των υφιστάμενων μοντέλων. Οι ερευνητές παρατήρησαν, επίσης, την εμφάνιση και διανομή νέων chatbots, τα οποία είναι σχεδιασμένα εξαρχής χωρίς ενσωματωμένους ηθικούς περιορισμούς ή τεχνικές προστασίας. Αυτά τα μοντέλα διαφημίζονται στο διαδίκτυο ως «ελεύθερα από φίλτρα», προσφέροντας στους χρήστες πλήρη πρόσβαση σε επικίνδυνες ή απαγορευμένες πληροφορίες, χωρίς κανέναν έλεγχο. Το γεγονός ότι τέτοια συστήματα κυκλοφορούν χωρίς κανονιστικό πλαίσιο, προκαλεί έντονο προβληματισμό στην επιστημονική και τεχνολογική κοινότητα.
Παρόλο που κάποιες εταιρείες, όπως η OpenAI, έχουν επενδύσει στην ανάπτυξη πιο ανθεκτικών μοντέλων, με αυστηρότερα πρότυπα ασφαλείας, η πλειονότητα των παρόχων εξακολουθεί να δίνει προτεραιότητα στην εμπορική ταχύτητα ανάπτυξης, θυσιάζοντας, σε κάποιο βαθμό, την ηθική προστασία των χρηστών. Για παράδειγμα, το μοντέλο “o1” της OpenAI, που παρουσιάστηκε τον Δεκέμβριο του 2024, έχει σχεδιαστεί ώστε να «σκέφτεται» με βάση τις πολιτικές ασφαλείας της εταιρείας, ενισχύοντας τις άμυνες του συστήματος απέναντι σε επιθέσεις. Ωστόσο, όπως σημειώνει η μελέτη, πολλά από τα εναλλακτικά ή ανεξάρτητα μοντέλα παραμένουν εύκολα στην παραβίαση, θέτοντας σε κίνδυνο όχι μόνο τον τελικό χρήστη, αλλά και υπό μία έννοια ευρύτερα την ίδια την κοινωνία.
Οι κίνδυνοι που περιγράφονται δεν είναι θεωρητικοί. Ήδη υπάρχουν τεκμηριωμένες περιπτώσεις στις οποίες τα chatbots παρείχαν οδηγίες για επικίνδυνες χημικές ουσίες, μεθόδους αυτοτραυματισμού ή αναπαρήγαγαν ακραίες ιδεολογίες. Σε μια εποχή όπου τα εργαλεία τεχνητής νοημοσύνης χρησιμοποιούνται όλο και πιο συχνά σε εκπαιδευτικά περιβάλλοντα, στην εξυπηρέτηση πελατών, στην υγειονομική πληροφόρηση και σε επαγγελματικές συμβουλές, τέτοιου είδους παραβιάσεις θα μπορούσαν να έχουν σοβαρές, αν όχι τραγικές, συνέπειες.
Επιπλέον, η πρόσβαση σε τεχνολογία ανοιχτού κώδικα επιτρέπει σε οποιονδήποτε να αναπτύξει ή να τροποποιήσει ένα LLM, ακόμη και χωρίς προηγούμενη εμπειρία στον προγραμματισμό. Αυτή η «δημοκρατικοποίηση» της τεχνολογίας από τη μία πλευρά αποτελεί τεράστια ευκαιρία για καινοτομία, από την άλλη όμως, δημιουργεί και ένα άναρχο περιβάλλον, όπου η ρύθμιση και η λογοδοσία καθίστανται δύσκολες.
Η έρευνα καταλήγει στο συμπέρασμα πως, εάν δεν υπάρξουν πιο αυστηρά πλαίσια δεοντολογίας, καλύτερα εκπαιδευμένοι χρήστες και αυξημένος έλεγχος από τις ίδιες τις εταιρείες τεχνητής νοημοσύνης, τα chatbots ενδέχεται να μετατραπούν σε εργαλεία που θα ενισχύουν τον κίνδυνο αντί να τον περιορίζουν. Η τεχνητή νοημοσύνη δεν είναι εγγενώς καλή ή κακή, καθώς το πώς χρησιμοποιείται και πώς σχεδιάζεται είναι αυτό που καθορίζει τον αντίκτυπό της.
Με την AI να επηρεάζει ολοένα και περισσότερους τομείς της ανθρώπινης δραστηριότητας, είναι κρίσιμο οι οργανισμοί και οι κυβερνήσεις να επενδύσουν στην ασφάλεια των συστημάτων, στην κατανόηση των κινδύνων και στη θέσπιση κανονιστικών πλαισίων που θα προστατεύουν την κοινωνία από τις σκοτεινές πλευρές μιας τεχνολογίας με αμέτρητες δυνατότητες.
ή αποκτήστε ετήσια συνδρομή εδώ.