Τεχνολογία αναγνώρισης ομιλίας

Αναγνώριση ομιλίας, η ικανότητα των συσκευών να ανταποκρίνονται σε προφορικές εντολές. Η αναγνώριση ομιλίας επιτρέπει τον έλεγχο hands-free διαφόρων συσκευών και εξοπλισμού (ένα ιδιαίτερο όφελος για πολλά άτομα με ειδικές ανάγκες), παρέχει είσοδο σε αυτόματη μετάφραση και δημιουργεί υπαγορεύσεις έτοιμες για εκτύπωση. Μεταξύ των πρώτων εφαρμογών για την αναγνώριση ομιλίας ήταν αυτοματοποιημένα τηλεφωνικά συστήματα και λογισμικό ιατρικής υπαγόρευσης. Χρησιμοποιείται συχνά για υπαγόρευση, ερωτήσεις βάσεων δεδομένων και για την παροχή εντολών σε συστήματα που βασίζονται σε υπολογιστή, ειδικά σε επαγγέλματα που βασίζονται σε εξειδικευμένα λεξιλόγια. Επιτρέπει επίσης προσωπικούς βοηθούς σε οχήματα και smartphone, όπως το Siri της Apple.

Προτού οποιοδήποτε μηχάνημα μπορεί να ερμηνεύσει την ομιλία, ένα μικρόφωνο πρέπει να μεταφράσει τις δονήσεις της φωνής ενός ατόμου σε ένα κυματοειδές ηλεκτρικό σήμα. Αυτό το σήμα με τη σειρά του μετατρέπεται από το υλικό του συστήματος - για παράδειγμα, μια κάρτα ήχου ενός υπολογιστή - σε ψηφιακό σήμα. Είναι το ψηφιακό σήμα που αναλύει ένα πρόγραμμα αναγνώρισης ομιλίας προκειμένου να αναγνωρίσει ξεχωριστά φωνήματα, τα βασικά δομικά στοιχεία του λόγου. Στη συνέχεια, τα φωνήματα ανασυνδυάζονται σε λέξεις. Ωστόσο, πολλές λέξεις ακούγονται όμοια και, για να επιλέξετε την κατάλληλη λέξη, το πρόγραμμα πρέπει να βασίζεται στο περιβάλλον. Πολλά προγράμματα καθιερώνουν το πλαίσιο μέσω της ανάλυσης trigram, μιας μεθόδου που βασίζεται σε μια βάση δεδομένων συχνοτήτων τριών λέξεων συστάδων στις οποίες έχουν ανατεθεί πιθανότητες ότι κάθε δύο λέξεις θα ακολουθούνται από μια δεδομένη τρίτη λέξη. Για παράδειγμα, εάν ένας ομιλητής λέει «ποιος είμαι», η επόμενη λέξη θα αναγνωριστεί ως αντωνυμία «Εγώ» αντί για παρόμοιο ήχο αλλά λιγότερο πιθανό «μάτι». Ωστόσο, μερικές φορές απαιτείται ανθρώπινη παρέμβαση για τη διόρθωση σφαλμάτων.

Προγράμματα για την αναγνώριση μερικών μεμονωμένων λέξεων, όπως τηλεφωνικά συστήματα πλοήγησης φωνής, λειτουργούν για σχεδόν κάθε χρήστη. Από την άλλη πλευρά, τα προγράμματα συνεχούς ομιλίας, όπως τα προγράμματα υπαγόρευσης, πρέπει να εκπαιδευτούν ώστε να αναγνωρίζουν τα πρότυπα ομιλίας ενός ατόμου. Η εκπαίδευση περιλαμβάνει τον χρήστη να διαβάζει δυνατά δείγματα κειμένου. Σήμερα, με την αυξανόμενη ισχύ των προσωπικών υπολογιστών και των κινητών συσκευών, η ακρίβεια της αναγνώρισης ομιλίας έχει βελτιωθεί σημαντικά. Τα ποσοστά σφάλματος μειώθηκαν σε περίπου 5 τοις εκατό στα λεξιλόγια που περιέχουν δεκάδες χιλιάδες λέξεις. Ακόμη μεγαλύτερη ακρίβεια επιτυγχάνεται σε περιορισμένα λεξιλόγια για εξειδικευμένες εφαρμογές, όπως υπαγόρευση ακτινολογικών διαγνώσεων.