Spracherkennung ist auch 2023 noch ein Stiefkind unter Linux. Die Platzhirsche sind die großen vier: die kommerziellen Angebote von Amazon, Apple, Google, Microsoft dominieren den zukunftsträchtigen Markt.
Ein kleines Dorf …
Wie bei Asterix gibt es aber eine freie Zone und die wird von Mozilla seit 2017 im Sprachforschungsprojekt Common Voice in Form des Common Voice Corpus bereitgestellt. Gerade ist Version 14.0 erschienen. Der darin enthaltene Datensatz menschlicher Stimmen ist die weltweit größte öffentliche Sammlung dieser Art. Sie steht allen Interessierten kostenfrei unter der Creative Commons CCO-Lizenz zur Verfügung und soll Sprache-zu-Text-Anwendungen (STT) voranbringen.
Von Deep Speech genutzt
Die Stimmdatenbank wird von Freiwilligen erstellt, die Beispielsätze in möglichst vielen Sprachen mit einem Mikrofon einsprechen. Damit sollen Geräte lernen, wie echte Menschen zu sprechen. Die Datenbank wird unter anderem von Mozillas mit Tensor Flow realisierter Spracherkennungs-Engine DeepSpeech genutzt, aber auch die Mycroft AI sowie die Projekte Rhasspy und voice2json können damit umgehen. Ziel ist es, eine Alternative zu Amazons Alexa, Apples Siri oder Google Home zu entwickeln, da die kommerziellen Engines beispielsweise keine einzige native afrikanische Sprache unterstützen. Eines der Ziele von Mozilla ist es, die Wortfehlerrate auf unter 10 % zu drücken. Die neuesten Versionen des vortrainierten englischsprachigen Modells erreichen dieses Ziel mit einer durchschnittlichen Wortfehlerrate von etwa 7,5 %.
Imposante Zahlen
Auf der Webseite von Common Voice kann man die Weiterentwicklung des letzten Jahres insgesamt oder nach Sprachen sortiert mitverfolgen. Der deutsche Datensatz von v14 umfasst inzwischen 32 GByte mit 18.281 Sprechern und 1.376 Stunden Material und 2.009.456 gesprochenen Sätzen. Die Aufnahmen aller 112 Sprachen umfassen insgesamt 27.388 Stunden.
Logo: Voice Banner2 | Urheber: Mozilla | Lizenz: CC BY-SA 3.0