Οι άνθρωποι μπορούν να συνοψίσουν μια πολύπλοκη αναπαράσταση ή εικόνα, με μερικές λεξεις, χωρίς να χρειαστεί να σκεφτούν ιδιαίτερα. Για τους υπολογιστές όμως είναι τρομακτικά πιο δύσκολο, κάτι που ωστόσο μπορεί σύντομα να αλλάξει.
Ερευνητές της Google δημιούργησαν ένα λογισμικό το οποίο μπορεί να περιγράψει σε φυσική γλώσσα, με αρκετή ακρίβεια, σκηνές που απεικονίζονται σε φωτογραφίες. Όταν για παράδειγμα το λογισμικό “δει” μια φωτογραφία με ανθρώπους να ψωνίζουν από ένα σουπερ-μάρκετ, θα απαντήσει με μια περιγραφή: “Μια ομάδα ανθρώπων ψωνίζουν από ένα σουπερ-μάρκετ”. Το λογισμικό μπορεί ακόμα και να μετρήσει, δίνοντας απαντήσεις, όπως “Δύο πίτσες βρίσκονται πάνω στο φούρνο” (φωτο).
Pizza: Δύο πίτσες βρίσκονται πάνω στο φούρνο
Το εντυπωσιακό στη συγκεκριμένη ερευνητική δουλειά είναι ότι κανένας προγραμματιστής της Google δεν προγραμμάτισε το λογισμικό με κανόνες ως προς το πώς να ερμηνεύει σκηνές. Αντ᾽αυτού, το συγκεκριμένο λογισμικό χρησιμοποιεί μεθόδους Μηχανικής Μάθησης (Νευρωνικά Δίκτυα) για να “μάθει” πώς να ερμηνεύει εικόνες, καταναλώνοντας κατά κάποιον τρόπο δεδομένα. Οι ερευνητές συνέδεσαν δυο Νευρωνικά Δίκτυα που είχαν αναπτυχθεί για εντελώς διαφορετικούς σκοπούς. Το πρώτο δίκτυο είχε “εκπαιδευτεί” για να επεξεργάζεται εικόνες και να εξάγει μια μαθηματική αναπαράσταση των περιεχομένων τους, με σκοπό τον εντοπισμό και χαρακτηρισμό αντικειμένων. Το δεύτερο δίκτυο είχε “εκπαιδευτεί” για να μεταφράζει στα αγγλικά ολόκληρες προτάσεις από άλλες γλώσσες, ως μέρος του γνωστού google translate. Όταν τα δίκτυα συνδυαστούν, το πρώτο “βλέπει” την εικόνα και δίνει μια μαθηματική περιγραφή του τί βλέπει στο δεύτερο, το οποίο χρησιμοποιεί την πληροφορία για να δημιουργήσει προτάσεις που μπορούν (και έχει νόημα) να διαβαστούν από ανθρώπους.Το συνδυασμένο δίκτυο “εκπαιδεύτηκε χιλιάδες εικόνες και τις γραμμένες από ανθρώπους περιγραφές τους.
Το λογισμικό μπορεί να αποδώσει με ακρίβεια αρκετές εικόνες, αλλά φαίνεται να μπερδεύεται αρκετά σε μερικές περιπτώσεις, αποτυγχάνοντας να αναγνωρίσει και να αποδώσει σωστά το περιεχόμενο των εικόνων (φωτο).
Fridge: Ενα ψυγείο γεμάτο φαγητά και ποτά
Καθώς όλο και περισσότερα δεδομένα και φωτογραφίες γίνονται διαθέσιμες, τέτοιου είδους λογισμικά θα γίνονται συνεχώς καλύτερα.
Μπορεί μια εικόνα να αξίζει μερικές φορές όσο 1000 λέξεις, κάποιες φορές όμως είναι οι λέξεις που είναι πιο χρήσιμες. Συστήματα σαν αυτό της Google θα μπορούσαν να είναι εξαιρετικής σημασίας, βοηθώντας ανθρώπους με προβλήματα όρασης να αντιληφθούν εικόνες τόσο στο διαδίκτυο όσο και στην πραγματική ζωή.