36

Η τεχνολογία αναγνώρισης της ανθρώπινης ομιλίας φαίνεται σχεδόν έτοιμη να εφαρμοστεί σε ευρεία κλίμακα. Όπως αναφέρει το CNet.com, την Τετάρτη η Microsoft θα διαθέσει δοκιμαστική έκδοση του λογισμικού Speech Server για συστήματα αυτόματης απάντησης, ενώ η IBM έχει ήδη εγκαταστήσει τηλεφωνικά συστήματα αυτοματοποιημένων συναλλαγών σε εταιρείες.

Το Speech Server είναι λογισμικό που τρέχει σε διακομιστές και μετατρέπει την ομιλία σε κείμενο. Επιτρέπει σε προγραμματιστές να αναπτύσσουν εφαρμογές διαχείρισης φωνητικών αιτημάτων: Το πρόγραμμα ακούει τον πελάτη και του απαντά ή εκτρέπει την κλήση στον αρμόδιο.

H Microsoft αναπτύσσει παράλληλα το πρόγραμμα Yoda για την υπαγόρευση μηνυμάτων ηλεκτρονικού ταχυδρομείου.

Όπως εξηγεί ο Αλεξ Έισερο της Microsoft, το σύστημα τεχνητής νοημοσύνης της εταιρείας δεν βασίζεται σε κωδικοποιημένους κανόνες γραμματικής, όπως τα παλαιότερα συστήματα αναγνώρισης ομιλίας.

Αναγνωρίζει τις λέξεις κυρίως από τα συμφραζόμενά τους. Βασίζεται σε πιθανολογικούς κανόνες και περιμένει, για παράδειγμα, ότι ο ήχος της φράσης «να συναντηθούμε» θα ακολουθείται από λέξεις όπως «αύριο», ή από φράσεις όπως «στην αίθουσα συσκέψεων».

Τηλεφωνικά συστήματα αυτόματης απάντησης χρησιμοποιούνται ήδη από αεροπορικές εταιρείες και άλλες επιχειρήσεις στις ΗΠΑ, καθώς μειώνουν δραστικά το κόστος των κέντρων τηλεφωνικής εξυπηρέτησης. Λειτουργούν όμως σε πολύ περιορισμένο φάσμα φωνητικών εντολών και απαιτούν πολλές ερωταποκρίσεις για να εξυπηρετήσουν τον πελάτη.

Η τεχνολογία όμως εξελίσσεται. Η εταιρεία οικονομικών υπηρεσιών T. Rowe Price έχει εγκαταστήσει σύστημα της ΙΒΜ που επιτρέπει συναλλαγές με απλά διατυπωμένα αιτήματα: «Μπορείς να πεις Θα ήθελα να κάνω μια συναλλαγή και θα απαντήσει Τι είδους;» εξηγεί ο Γιούτζιν Κοξ της IBM.

Τα τμήματα έρευνας και υπηρεσιών της IBM συνεχίζουν να αναπτύσσουν σε πειραματικό στάδιο εφαρμογές για μεγάλες επιχειρήσεις ακόμα μεγαλύτερης ακρίβειας.

Μέχρι το τέλος του έτους η εταιρεία θα διαθέσει λογισμικό αυτόματης μετάφρασης και ομιλίας που επιτρέπει την φωνητική επικοινωνία ανάμεσα σε άτομα που μιλούν διαφορετικές γλώσσες.

Σήμερα το ποσοστό λάθους των προγραμμάτων αναγνώρισης ομιλίας είναι πέντε με δέκα φορές υψηλότερο από ό,τι στους ανθρώπους. Η IBM εκτιμά, όμως, ότι μέχρι το 2010 οι μηχανές θα μετατρέπουν την ομιλία σε κείμενο με μεγαλύτερη ακρίβεια από ό,τι οι άνθρωποι.

Newsroom ΑΛΤΕΡ ΕΓΚΟ