22 Ιούν 2024
READING

Mπορούν οι συνθετικές φωνές να αντικαταστήσουν τους ανθρώπους στα audiobooks;

5 MIN READ

Mπορούν οι συνθετικές φωνές να αντικαταστήσουν τους ανθρώπους στα audiobooks;

Mπορούν οι συνθετικές φωνές να αντικαταστήσουν τους ανθρώπους στα audiobooks;

Τα audiobooks είναι η ηχογράφηση της αφήγησης ενός βιβλίου ή άλλου έργου. Παραδοσιακά, αυτή την δυνατή ανάγνωση την έκανε συνήθως κάποιος ηθοποιός, ο οποίος φρόντιζε να αποδώσει τα στοιχεία του χαρακτήρα σε κάθε ήρωα με τη φωνή του. Πρόσφατα, ωστόσο φαίνεται να έχει αναδυθεί μια νέα δυνατότητα, βάση της οποίας τα audiobooks μπορούν να αναπαραχθούν χωρίς την παρουσία επαγγελματία, αλλά με αφηγητή μια συνθετική φωνή.

Αν και αυτές οι φωνές ακούγονται πιο εκφραστικές από μια τυπική συνθετική φωνή, δύσκολα δε θα αντιληφθεί κάποιος ότι είναι τεχνητή, πράγμα που προσφέρει χειρότερη εμπειρία από έναν ανθρώπινο αφηγητή. Οι τεχνητές φωνές μπορεί συχνά να αποδώσουν λέξεις με λάθος τονισμό ή προφορά. Βέβαια, οι συνθετικές φωνές έχουν γίνει λιγότερο ενοχλητικές τα τελευταία χρόνια, εν μέρει λόγω της εξέλιξης και της έρευνας της τεχνητής νοημοσύνης από εταιρείες όπως το Google και το Amazon. Αυτές ανταγωνίζονται για να προσφέρουν εικονικούς βοηθούς και υπηρεσίες cloud με πιο ομαλούς τεχνητούς τόνους φωνών. Αυτές οι εξελίξεις και οι νέες δυνατότητες εύλογα μπορεί να δημιουργήσουν μια ανησυχία για το μέλλον του επαγγέλματος των καλλιτεχνών που δημιουργούν audiobooks.

Διαβάστε επίσης: Ήρθε η ώρα για τις Alexa, Google Assistant και Siri να αρχίσουν να μιλούν σαν κανονικοί άνθρωποι

Άνοδος των audiobooks

Ορισμένοι εκδότες βλέπουν τις συνθετικές φωνές ως έναν τρόπο για να αξιοποιήσουν την αυξανόμενη ζήτηση για audiobooks. Τα συνολικά έσοδα των Αμερικανών εκδοτών βιβλίων μειώθηκαν ελαφρώς μεταξύ 2015 και 2020 και τα έσοδα από τα ηλεκτρονικά βιβλία επίσης. Ωστόσο, τα έσοδα από τα ακουστικά βιβλία αυξήθηκαν κατά 157%. Οι καταναλωτές έχουν αποκτήσει σταθερά μεγαλύτερη άνεση με τη μορφή αυτή, βοηθούμενοι από τις τεχνικές βελτιώσεις στις εφαρμογές για smartphones, τα έξυπνα ηχεία και τα ασύρματα ακουστικά.

Και στην Ελλάδα έχουν αρχίσει να ανεβαίνουν τα audiobooks σημαντικά, με εταιρείες όπως η Bookvoice να προσφέρουν μια γκάμα βιβλίων αναγνωσμένων από γνωστούς ηθοποιούς με αναγνωρίσιμες φωνές.

Όμως, λόγω του κόστους του αφηγητή και της παραγωγής ήχου, διεθνώς οι περισσότεροι τίτλοι δε γίνονται ποτέ ηχητικά βιβλία, ιδίως σε μικρότερους εκδοτικούς οίκους. Θεωρείται ότι η συνθετική αφήγηση μπορεί να αντισταθμίσει μια παγκόσμια ανισορροπία στα ακουστικά βιβλία, η πλειονότητα των οποίων είναι στα αγγλικά.

Στο Audile του Amazon, το οποίο περιλαμβάνει audiobooks, υπάρχουν αρκετές επιλογές με συνθετική φωνή, πράγμα που είναι ενάντια στους κανονισμούς, οι οποίοι ορίζουν ότι τα audiobooks πρέπει να δημιουργούνται με πραγματική φωνή. Επιπλέον, φαίνεται να αναδύονται εταιρείες που προσφέρουν τεχνητές φωνές. Μία από τις πολλές startups που αναπτύσσουν σύνθεση ομιλίας για ηχητικά βιβλία είναι η Speechki, η οποία προσφέρει περισσότερες από 300 συνθετικές φωνές για την έκδοση ηχητικών βιβλίων σε 77 διαλέκτους και γλώσσες.

Διαβάστε επίσης: Το Spotify εξαγοράζει την Findaway των audiobooks

Ο τρόπος λειτουργίας της Speechki βασίζεται στην ανάλυση του κειμένου με εσωτερικό λογισμικό, για να επισημάνει τον τρόπο κλίσης των διαφόρων λέξεων, την εκφώνηση με τεχνολογία προσαρμοσμένη από παρόχους cloud, όπως το Amazon, η Microsoft και το Google, και, έπειτα, στην ακρόαση από δοκιμαστικούς ακροατές που ελέγχουν για λάθη. Ακόμα, το Google δοκιμάζει τη δική του υπηρεσία “αυτόματης αφήγησης”, που μπορούν να χρησιμοποιήσουν οι εκδότες για τη δωρεάν δημιουργία αγγλικών ακουστικών βιβλίων, χρησιμοποιώντας περισσότερες από 20 διαφορετικές συνθετικές φωνές.

Η DeepZen, μια άλλη εταιρεία παραγωγής συνθετικής φωνής, χρησιμοποιεί εσωτερική τεχνολογία σύνθεσης ομιλίας για να αντιγράψει τη φωνή επαγγελματιών αφηγητών και το αποτέλεσμα μπορεί στη συνέχεια να μπει σε εφαρμογή από τους πελάτες. Το λογισμικό της εταιρείας αναζητά ενδείξεις στο κείμενο ενός βιβλίου για να εφαρμόσει επτά διαφορετικούς συναισθηματικούς τόνους, συμπεριλαμβανομένων του φόβου και του θυμού.

Απειλή για τους επαγγελματίες αφηγητές

Οι startups υποστηρίζουν ότι δεν αποτελούν απειλή για τους επαγγελματίες αφηγητές, επειδή η τεχνολογία τους θα χρησιμοποιηθεί για την παραγωγή ηχητικών βιβλίων που διαφορετικά δε θα είχαν ηχογραφηθεί καν. Τονίζουν ότι η ανθρώπινη και η συνθετική αφήγηση μπορούν να χρησιμοποιούνται συμπληρωματικά χωρίς η μία να επηρεάσει την επιτυχία της άλλης. Παρόλα αυτά, οι επαγγελματίες αφηγητές είναι πιο ακριβοπληρωμένοι σε σχέση με τις συνθετικές φωνές, πράγμα που μπορεί να στρέψει τους εκδοτικούς οίκους στους ψηφιακούς αφηγητές. Για παράδειγμα, ένας επαγγελματίας αφηγητής στις ΗΠΑ μπορεί να λαμβάνει περίπου 250 δολάρια ανά τελική ώρα ήχου που στέλνει σε έναν εκδότη, ενώ η DeepZen χρεώνει τους εκδότες περίπου 120 δολάρια για κάθε τελική ώρα, ή και λιγότερα. Βέβαια, για εταιρείες όπως η DeepZen υπάρχει η υπόθεση ότι η τεχνολογία μπορεί να αυξήσει τα κέρδη των αφηγητών που επιτρέπουν να αντιγραφεί η φωνή τους, επειδή θα λαμβάνουν πνευματικά δικαιώματα.

Στο μεταξύ, ο μακροχρόνιος κανόνας του Audible που απαιτεί ανθρώπινους αφηγητές θέτει έναν σημαντικό περιορισμό στις φιλοδοξίες των παρόχων συνθετικής φωνής. Παρόλα αυτά, προβλέπεται ότι μόλις οι συνθετικές φωνές γίνουν πιο συνηθισμένες στα ανταγωνιστικά καταστήματα, το Audible θα αναγκαστεί να τις επιτρέψει. Επιπλέον, αν τα ακουστικά βιβλία με τεχνητούς αφηγητές αρχίσουν να λαμβάνουν πιο ευνοϊκές κριτικές, ο μικρός αριθμός που είναι διαθέσιμος σήμερα θα μπορούσε να αυξηθεί γρήγορα. Το λογισμικό μπορεί να παράγει ήχο πιο γρήγορα από ό,τι ο άνθρωπος.

Γενικά, δεν αναμένεται ότι η τεχνολογία θα γίνει τόσο καλή ώστε να απειλήσει τους υπάρχοντες αφηγητές. Όμως, το γεγονός ότι είναι φθηνότερη και μπορεί να δώσει το τελικό προϊόν πιο γρήγορα ενδεχομένως να μπορεί να εμποδίσει ορισμένα βιβλία ή συγγραφείς να λάβουν την αναγνώριση που τους αξίζει από τους ακροατές και τους κριτικούς και να κάνει ορισμένους εκδοτικούς οίκους να την προτιμήσουν.

Συνδεθείτε παρακάτω
ή αποκτήστε ετήσια συνδρομή εδώ.