Ένα ιδιαίτερα φιλόδοξο ελληνικό project που θα βοηθήσει ανθρώπους με μερική ή ολική απώλεια ακοής να επικοινωνήσουν μέσω μιας εφαρμογής και τη χρήση της νοηματικής με όλους τους υπολοίπους, βρίσκεται στα σκαριά. Στο πλαίσιο του ρεπορτάζ μας μιλήσαμε με τον Δρ. Πέτρο Δάρα, Διευθυντή Ερευνών στο Ινστιτούτο Τεχνολογιών Πληροφορικής και Επικοινωνιών (ΙΠΤΗΛ) του Εθνικού Κέντρου Έρευνας και Τεχνολογικής Ανάπτυξης (ΕΚΕΤΑ), αλλά και τον Δρ. Κοσμά Δημητρόπουλο, Ερευνητή Γ’ στο Ινστιτούτο Τεχνολογιών Πληροφορικής και Επικοινωνιών (ΙΠΤΗΛ) του Εθνικού Κέντρου Έρευνας και Τεχνολογικής Ανάπτυξης (ΕΚΕΤΑ).
To project
Το έργο «Επικοινωνώ» στοχεύει στην υλοποίηση ενός συστήματος, με τη μορφή μιας εφαρμογής για έξυπνα κινητά ή ταμπλέτες, που θα έχει ως στόχο την εύκολη, αποτελεσματική και αμφίδρομη επικοινωνία κωφών και ακουόντων συνομιλητών σε πραγματικό χρόνο. Ο πρωταρχικός στόχος του έργου αποτελείται από την αναγνώριση της ομιλίας του κωφού συνομιλητή, η οποία θα γίνεται στην Ελληνική Νοηματική Γλώσσα. Στα πλαίσια του έργου θα σχεδιαστούν καινοτόμες μέθοδοι βαθιάς μάθησης (Deep learning) που θα στηρίζονται στην ανάπτυξη μεγάλης κλίμακας συνελικτικών και αναδρομικών νευρωνικών δικτύων (Convolutional και Recurrent Neural Networks) για την αναγνώριση των ανθρώπινων κινήσεων. Για την αναγνώριση των διαφόρων νοημάτων θα χρησιμοποιηθεί πολυτροπική πληροφορία (χρώμα, βάθος, κίνηση, ανθρώπινος σκελετός) σε πολλαπλές κλίμακες (κινήσεις ολόκληρου σώματος, χειρονομίες). Σημαντική πρόκληση αποτελεί η ενσωμάτωση των σχεδιασμένων νευρωνικών δικτύων στην πλατφόρμα της έξυπνης συσκευής, δηλαδή σε ένα περιβάλλον με περιορισμένες δυνατότητες επεξεργαστικής ισχύος.
«Το σχέδιο ξεκίνησε μέσα από ιδέες που προέκυψαν στο εργαστήριο οπτικής υπολογιστικής, το οποίο ασχολείται εδώ και 20 χρόνια με computer vision και machine learning», μας τόνισε χαρακτηριστικά ο Δρ. Πέτρος Δάρας και σημείωσε το πως η ανάλυση εικόνων και video έδωσε στην ομάδα το απαραίτητο έναυσμα για σκέψεις μιας τέτοιας εφαρμογής. Η δυσκολία στο εγχείρημα ήταν πως έπρεπε να δημιουργηθεί και μια ατμόσφαιρα κατάλληλη για κωφάλαλους, οι οποίοι θα πρέπει να αισθανθούν το περιβάλλον χρήσης σαν προέκταση του τρόπου επικοινωνίας τους με τον κόσμο.
«Η πρόκληση στην καταγραφή της νοηματικής είναι μεγάλη, καθώς οι κινήσεις είναι πάρα πολύ γρήγορες, τα χέρια μπαίνουν το ένα μπροστά από το άλλο και το επίπεδο δυσκολίας γίνεται πολύ μεγαλύτερο απ’ όσο θα μπορούσε να φανταστεί κανείς αρχικά», σημειώνει ο Δρ. Κοσμάς Δημητρόπουλος, ενώ ο Δρ. Πέτρος Δάρας σημείωσε πάνω σε αυτό πως «η νοηματική είναι και αρκετά πιο σύνθετη, καθώς παίζει πολύ μεγάλο ρόλο και η έκφραση του προσώπου. Η ίδια κινησιολογία με διαφορετικές εκφράσεις, αποδίδονται εντελώς διαφορετικά». Σε ό,τι αφορά τώρα στο πως το πρόγραμμα θα εφαρμοστεί στην πορεία, στόχος της ομάδας είναι να μπορέσει να καλύψει τις ανάγκες 20-30 διαφορετικών περιπτώσεων και στην πορεία να το επεκτείνει.
Οι ανάγκες του σήμερα
Όπως μας είπαν οι άνθρωποι του project, το ποσοστό του πληθυσμού που παρουσιάζει ολική ή μερική απώλεια ακοής και έχει ως βασικό μέσο επικοινωνίας τη νοηματική γλώσσα είναι σχεδόν το 5.3% του πλανήτη! Στην παρούσα φάση ένας κωφός αντιμετωπίζει αρκετές δυσκολίες στην επικοινωνία και σε πολλές περιπτώσεις απαιτείται είτε η χρήση διερμηνέα, είτε πολύ μεγάλη προσπάθεια για να διαβάσει τα χείλη του ανθρώπου που βρίσκεται απέναντί του.
Το έργο
To έργο «Επικοινωνώ» έρχεται να καλύψει αυτό το χάσμα με μια εφαρμογή που αναπτύσσεται για κινητά τηλέφωνα και tablets και θα προσπαθήσει να λαμβάνει εντολές και να τις μεταφέρει για να καταστήσει την επικοινωνία πιο εύκολη και απλή. Η συσκευή του χρήστη θα τοποθετείται σε τέτοιο τρόπο, ώστε η ακολουθία προτάσεων νοηματικής γλώσσας του κωφού να καταγράφεται χωρίς παρεμβολές και στη συνέχεια, με χρήση πρωτοποριακών μεθόδων τεχνητής νοημοσύνης, η ακολουθία προτάσεων νοηματικής γλώσσας αναγνωρίζεται και μετατρέπεται σε κοινή ελληνική.
Η διαδικασία θα λειτουργεί και αντίστροφα, θα μετατρέπει δηλαδή τον λόγο ενός ανθρώπου χωρίς προβλήματα ακοής σε νοηματική που θα αποδίδεται με τη χρήση ενός τρισδιάστατου ανθρώπινου μοντέλου στην οθόνη του χρήστη.
Πρόοδος του έργου
Μέχρι σήμερα έχει δημιουργηθεί μια βάση δεδομένων που περιέχει πιθανά σενάρια συνομιλιών σε δημόσιες υπηρεσίες, όπως αστυνομία, κέντρο υγείας, ΟΑΕΔ και ΚΕΠ και η οποία είναι απαραίτητη για την εκπαίδευση νευρωνικών δικτύων τεχνητής νοημοσύνης και έχει αναπτυχθεί ένα λεπτομερές λεξικό αντιστοίχισης των νοημάτων με την απόδοσή τους σε κοινή ελληνική. Η ομάδα έχει αναπτύξει καινοτόμους αλγόριθμους ανάλυσης ακολουθιών σε μορφή video με σκοπό την αναγνώριση της νοηματικής γλώσσας, καθώς και ένας νέος (αλγόριθμος) σύμπτυξης νευρωνικών δικτύων που πετυχαίνει μείωση του μεγέθους των δικτύων στη μνήμη με παράλληλη αύξηση της ταχύτητας εκτέλεσής τους. Τέλος, έχει σχεδιαστεί και υλοποιηθεί το πρώτο τμήμα της εφαρμογής για κινητά τηλέφωνα και tablets.
Η καταγραφή των αναγκών ενός κωφάλαλου έχει περάσει από διάφορα στάδια από το 2018. Ο Δρ. Πέτρος Δάρας μάς σημείωσε πως έχουν χρησιμοποιηθεί μια πληθώρα ανθρώπων για να μπορέσει να καταγραφεί κάθε πρόταση (και ανάγκη) με μια ποικιλία καταγραφών, καθώς κάθε άνθρωπος έχει τα δικά του χαρακτηριστικά που καταγράφονται στην κάμερα. Αφού υπάρξουν όλα τα δεδομένα, δημιουργούνται οι αλγόριθμοι και στην πορεία οι κωφάλαλοι αξιολογούν το έργο όσο προχωράει, ανάλογα με το πόσο τους καλύπτει τις ανάγκες.
Ο εμπλουτισμός του αλγόριθμου γίνεται πάντα και συγκριτικά με τα εργαστηριακά αποτελέσματα, με την ομάδα να προσπαθεί να προσαρμόσει όποια δεδομένα λαμβάνει, όσο καλή ή κακή είναι μια κάμερα που έχει η συσκευή του χρήστη.
Επεξεργασία των δεδομένων
Η επεξεργασία των δεδομένων γίνεται σε τρία επίπεδα. Το πρώτο επίπεδο βρίσκεται στο κινητό, αν βέβαια έχει την επεξεργαστική ισχύ για κάτι τέτοιο. Το δεύτερο επίπεδο είναι το επίπεδο fog, δηλαδή να προσπαθήσει το πρόγραμμα να αξιοποιήσει την επεξεργαστική ισχύ των γειτονικών συσκευών που βρίσκονται στο χώρο και στο τελευταίο επίπεδο, γίνεται η επεξεργασία στο cloud. «Στόχος μας είναι να συμπιέσουμε τους αλγόριθμους σε τέτοιο σημείο που να είναι το κόστος στις επιδόσεις του τηλεφώνου όσο το δυνατόν λιγότερες, αλλά σίγουρα και το 5G θα μας λύσει τα χέρια όταν γίνει ευρέως διαδεδομένο», τόνισε για το θέμα ο Δρ. Κοσμάς Δημητρόπουλος.
Το ΙΠΤΗΛ ασχολήθηκε ενεργά - για το έργο «ΕΠΙΚΟΙΝΩΝΩ»- σε συνεργασία με το Κέντρο Ελληνικής Νοηματικής Γλώσσας (ΚΕΝΓ) για την καταγραφή και δημιουργία της βάσης δεδομένων. Επιπλέον, λόγω της μεγάλης εμπειρίας του στη μηχανική μάθηση, το ΙΠΤΗΛ ασχολήθηκε με την ανάπτυξη καινοτόμων αλγορίθμων αναγνώρισης νοηματικής γλώσσας από βίντεο ακολουθίες, σύμπτυξης νευρωνικών δικτύων και αναγνώρισης της τρισδιάστατης θέσης χεριών. Τέλος, ανέπτυξε τμήμα της εφαρμογής για έξυπνα κινητά τηλέφωνα: (α) μετάφραση της νοηματικής σε ομιλούμενη, (β) απεικόνιση των νοημάτων.
Παύλος Παπαπαύλου
Πηγή: reader
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου