- Οι επιβλαβείς ισχυρισμοί παραμένουν αόρατες έως ότου η εικόνα αποκαλύψει κρυμμένες οδηγίες
- Η επίθεση λειτουργεί με την εκμετάλλευση του τρόπου επαναφοράς των εικόνων AI
- Οι ενεργές δυαδικές ρυθμίσεις μπορούν να εκτεθούν ένα μαύρο κείμενο ειδικών φωτογραφιών
Δεδομένου ότι τα εργαλεία τεχνητής νοημοσύνης γίνονται πιο ενσωματωμένα στην καθημερινή εργασία, οι σχετικοί κίνδυνοι ασφαλείας αναπτύσσονται επίσης σε νέες κατευθύνσεις.
Ερευνητές σε Μονοπάτι Ένας τρόπος με τον οποίο οι κακόβουλοι ισχυρισμοί κρύβονται μέσα στις εικόνες και στη συνέχεια ανιχνεύονται κατά τη διάρκεια της επεξεργασίας με μεγάλα γλωσσικά μοντέλα.
Αυτή η τεχνική επωφελείται από το πώς να φωτογραφίσετε τις πλατφόρμες τεχνητής νοημοσύνης για την αποτελεσματικότητα και να εκθέσετε αόρατα πρότυπα στο αρχικό τους, αλλά διαβάζονται στον αλγόριθμο μόλις αλλάξει το μέγεθος τους.
Κρυμμένες οδηγίες στις κατώτερες εικόνες
Η ιδέα εξαρτάται από το φύλλο του 2020 του Tu Braunschweig στη Γερμανία, γεγονός που δείχνει ότι η κλιμάκωση της εικόνας μπορεί να χρησιμοποιηθεί ως επιφάνεια επίθεσης για τη μηχανική μάθηση.
Το Trail of Bits έδειξε πώς οι ταξινομημένες φωτογραφίες μπορούν να επεξεργαστούν συστήματα, όπως το Gemini CLI, το Vertex AI Studio, το Google Assistant στο Android και τη διεπαφή ιστού Gemini.
Σε μία περιπτώσεις, τα δεδομένα ημερολογίου Google αραιώθηκαν σε μια εξωτερική διεύθυνση ηλεκτρονικού ταχυδρομείου χωρίς την έγκριση του χρήστη, επισημαίνοντας τις δυνατότητες της απειλής.
Η επίθεση επωφελείται από τις μεθόδους εκπλήρωσης, όπως οι πλησιέστεροι γείτονες, η Eselol ή μια δυαδική οικογένεια.
Όταν μια εικόνα προορίζεται να προετοιμαστεί, μειώνοντας τα δανεισμένα αντικείμενα που αποκαλύπτουν το κρυφό κείμενο.
Σε μια επίδειξη, οι σκοτεινές περιοχές μετατοπίστηκαν κατά τη διάρκεια του σχηματισμού Bicubic για να εμφανιστούν το κρυμμένο μαύρο κείμενο, το οποίο είναι αυτό που είναι αυτό LLM και στη συνέχεια να το εξηγήσετε ως εισαγωγή του χρήστη.
Από την άποψη του χρήστη, τίποτα δεν είναι ασυνήθιστο. Αλλά πίσω από τις σκηνές, το μοντέλο ακολουθεί τις ολοκληρωμένες οδηγίες μαζί με νόμιμους ισχυρισμούς.
Για να διευκρινιστούν οι κίνδυνοι, το Trail of Bits “Anamorpher”, ένα εργαλείο ανοιχτού κώδικα που δημιουργεί τέτοιες εικόνες για διαφορετικές μεθόδους τεμαχισμού.
Αυτό δείχνει ότι αν και η προσέγγιση είναι εξειδικευμένη, μπορεί να επαναληφθεί από άλλους εάν οι άμυνες δεν υπάρχουν.
Η επίθεση εγείρει ερωτήματα σχετικά με την εμπιστοσύνη στα συστήματα πολυμέσων AI, επειδή πολλές πλατφόρμες εξαρτώνται τώρα από τη συνήθη εργασία και η λήψη απλών εικόνων μπορεί να οδηγήσει σε ακούσια δεδομένα.
Ο κίνδυνος κλοπής ταυτότητας προκύπτει εάν αδειάζονται ειδικές ή ευαίσθητες πληροφορίες με αυτόν τον τρόπο.
Δεδομένου ότι αυτά τα μοντέλα συσχετίζονται συχνά με ημερολόγια, πλατφόρμες επικοινωνιών ή εργαλεία ροής εργασίας, οι κίνδυνοι επεκτείνονται σε ευρύτερα πλαίσια.
Για να ανακουφιστούν αυτό, οι χρήστες πρέπει να περιορίσουν τις διαστάσεις των εισροών, να προεπισκόπουν τα πεσμένα αποτελέσματα και να απαιτούν σαφή επιβεβαίωση των ευαίσθητων εργαλείων.
Οι παραδοσιακές άμυνες, όπως οι τοίχοι προστασίας, δεν έχουν σχεδιαστεί για να καθορίζουν αυτή τη μορφή χειραγώγησης, αφήνοντας ένα κενό που οι επιτιθέμενοι μπορεί τελικά να εκμεταλλευτούν.
Οι ερευνητές τονίζουν ότι τα φτερά ασφαλείας που εφαρμόζονται μόνο και τα ισχυρότερα σχέδια σχεδιασμού μπορούν να μειώσουν αξιόπιστα αυτούς τους κινδύνους.
Οι ερευνητές δήλωσαν: “Η ισχυρότερη υπεράσπιση είναι η εφαρμογή των σχεδίων ασφαλούς σχεδίου και των μεθοδολογικών αμυντικών που μειώνουν την ταχεία ένεση που επηρεάζει την άμεση ένεση πολυμέσων”, ανέφεραν οι ερευνητές.