Speech-to-Text-Technologie
Bei der Speech-to-Text-Technologie handelt es sich um eine Computeranwendung, die gesprochene Sprache in Text umwandelt. Sie umfasst komplizierte Algorithmen und maschinelles Lernen, um Audioeingaben originalgetreu zu verschlüsseln, was sie für Software für Barrierefreiheit, Transkriptionsdienste und sprachgesteuerte Geräte wichtig macht.
Bei der Speech-to-Text-Technologie wird der Audio-Input über ein Mikrofon aufgenommen, das die Geräusche aufzeichnet, und es werden unzählige Algorithmen verwendet, die mit verschiedenen Spektren arbeiten, um die Schallwellen zu analysieren und zu identifizieren. Diese Elemente werden verwendet, um die Elemente, die im Sprachmodell vorhanden sind, wieder zu verbinden und sie als Text des Gesprochenen zu präsentieren. Die Spracheingabe von Google beispielsweise nutzt Deep-Learning-Ansätze zur Erhöhung der Genauigkeit durch das kontinuierliche Lernen aus der Interaktion mit den Nutzern.
Die Speech-to-Text-Technologie wird vor allem bei der Transkription von Besprechungen und Vorlesungen, bei Sprachbefehlen für virtuelle Assistenten wie Siri oder Alexa und bei Hilfsmitteln für Menschen mit Hörbehinderungen eingesetzt. Die von Otter.ai angebotenen Sprachbefehl-Transkriptionsdienste, die es den Nutzern ermöglichen, die Audiodatei in bearbeitbaren Text umzuwandeln und somit die Arbeit zu erleichtern und die Zugänglichkeit zu verbessern, nutzen beispielsweise die automatisierte Transkriptions-Sprachtechnologie.
Die Speech-to-Text-Technologie ist mit einer Reihe von Problemen konfrontiert, von denen die wichtigsten die Variationen von Akzenten, Dialekten, Hintergrundgeräuschen und Homophonen sind, die zu den Ungenauigkeiten bei der Transkription beitragen. Außerdem fehlt ihr oft das kontextuelle Verständnis, das es ihr erlauben würde, zwischen solchen Lauten in verschiedenen Kontexten zu unterscheiden. Diese Unternehmen sind entschlossen, diese Herausforderungen zu überwinden, indem sie verbesserte Algorithmus-Systeme einsetzen und sich bessere Trainingsdaten beschaffen.
Die Speech-to-Text-Technologie arbeitet in Abhängigkeit von verschiedenen Faktoren wie der Art des verwendeten Mikrofons, der Klarheit der Stimme des Sprechers und der Kompliziertheit der Sprache mit unterschiedlichen Genauigkeitsgraden. Im Großen und Ganzen können die modernen Systeme unter den besten Bedingungen eine Genauigkeit von 85-95 % erreichen, aber es ist möglich, dass die Prozentsätze unter den anderen Bedingungen fast vollständig sinken. So verfügen professionelle Transkriptionsdienste in der Regel über menschliche Redakteure, die den von den Maschinen produzierten Text überprüfen und ändern, um einen besseren Grad an Korrektheit zu erreichen.