Το ερευνητικό εργαστήριο Intelligent Systems Laboratory του Τμήματος Πληροφορικής του Πανεπιστημίου Νεάπολις Πάφος, σε συνεργασία με το εργαστήριο Ρομποτικής και Αυτόματου Ελέγχου του Τμήματος Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών του Δημοκρίτειου Πανεπιστημίου Θράκης, συμμετείχαν από κοινού στο διαγωνισμό «Google Universal Image Embedding» που διοργανώνει η Google στην πλατφόρμα Kaggle. Στόχος του διαγωνισμού ήταν η σχεδίαση μεθοδολογίας η οποία θα μπορούσε να αναπαραστήσει το οπτικό περιεχόμενο εικόνων με μεγάλη ακρίβεια. Για πρώτη φορά, επιχειρείται η σχεδίαση ενός περιγραφέα εικόνων που θα μπορούσε να χρησιμοποιηθεί σε πολλά και διαφορετικά σενάρια. Το σύστημα, περιγράφει διανυσματικά το περιεχόμενο εικόνων με βάση τη μεθοδολογία που προτείνουν οι συμμετέχοντες, και επιστρέφει οπτικά και σημασιολογικά όμοιες εικόνες από συλλογή εκατομμύριων φωτογραφιών. Η πρόκληση είναι τεράστια, δεδομένου ότι έως σήμερα, σχετικές προσεγγίσεις μπορούσαν απλά να επιστρέψουν εικόνες συγκεκριμένων κατηγοριών.
Αυτή τη χρονιά, η Google προκαλεί τους συμμετέχοντες να παρουσιάσουν μεθοδολογίες οι οποίες λειτουργούν ανεξαρτήτως του αντικειμένου που απεικονίζεται στις εικόνες. Αν για παράδειγμα, σαν ερώτημα χρησιμοποιηθεί μια εικόνα που απεικονίζει έναν «καναπέ», το σύστημα όχι απλά αναγνωρίζει ότι πρόκειται για κάποιο έπιπλο, αλλά επιστρέφει στο χρήστη οπτικά παρόμοιες εικόνες του ίδιου αντικειμένου. Στο χώρο της ρομποτικής όρασης, αυτού του είδους τα προβλήματα παραμένουν ερευνητικά ενεργά για πάρα πολλά χρόνια, και προσελκύουν το ενδιαφέρον της ακαδημαϊκής κοινότητας αλλά και της βιομηχανίας της πληροφορικής.
Στο διαγωνισμό συμμετείχαν 1022 ομάδες απ’ όλον τον κόσμο, εκπροσωπώντας Πανεπιστήμια, ερευνητικά κέντρα, εταιρείες πληροφορικής και ανεξάρτητες ομάδες. Η ομάδα «IRonCLIP», που αποτελείται από τους Σωκράτη Γκέλιο (υποψήφιο Διδάκτορα) και Ανέστη Καστέλλο (Μεταπτυχιακό Φοιτητή), υπό το συντονισμό του Σάββα Χατζηχριστοφή (Καθηγητή Τεχνητής Νοημοσύνης), κατάφερε να εξασφαλίσει χρυσό μετάλλιο και χρηματικό έπαθλο, τερματίζοντας στην 6η θέση (top 0.58%) της γενικής κατάταξης.
Η μεθοδολογία που η ομάδα ανέπτυξε στηρίζεται στο νευρωνικό δίκτυο CLIP που είχε προ-εκπαιδευθεί στην βάση LAION-2B. Το δίκτυο στην συνέχεια εκπαιδεύθηκε εκ νέου στα δεδομένα τα οποία συνέθεσε η ομάδα χρησιμοποιώντας κομμάτια από συλλογές δεδομένων (Google Landmarks, Products10k, DeepFashion κ.α) ώστε να αντιπροσωπεύουν την κατανομή του σετ αξιολόγησης. Επίσης σημαντικός παράγοντας της απόδοσης του δικτύου ήταν η χρήση της συνάρτησης κόστους SubCenter ArcFace, η οποία ειδικεύεται στον διαχωρισμό των κατηγοριών στο διανυσματικό χώρο δημιουργώντας με αυτό τον τρόπο διανύσματα αναπαραστάσεων υψηλής ποιότητας για την ανάκτηση παρόμοιων εικόνων.
Επόμενος σταθμός το Tel Aviv και το συνέδριο European Conference on Computer Vision (ECCV) όπου η ομάδα καλείται να παρουσιάσει την μεθοδολογία και τα ευρήματα της.
Περισσότερα Technology νέα εδώ