Mozilla veröffentlicht Common Voice Corpus 8.0

Common Voice

Mozillas Open-Source-Projekt Common Voice hat das Erstellen einer freien Datenbank für Spracherkennungs-Software zum Ziel, um Geräten beizubringen, wie echte Menschen zu sprechen. Nach dem Prinzip des Crowdfunding sprechen Menschen weltweit Beispielsätze ein, die dann überprüft und in der Datenbank gesammelt werden.

Um 30 Prozent gewachsen

Nach einem Update im August letzten Jahres haben die Entwickler gerade Common Voice Corpus 8.0 veröffentlicht. Damit wird die bisher schon größte Sammlung ihrer Art um weitere 30 Prozent und 11 neue Sprachen erweitert. Die Datenbank umfasst nun über 18.000 Stunden aufgenommenes Sprachmaterial in mittlerweile 87 Sprachen. Der Datensatz für die englische Sprache umfasst 70 GByte an Daten, für Deutsch sind es 28 GByte.

Deep Speech

Die Datenbank wird unter anderem von Mozillas mit Tensor Flow realisierter Spracherkennungs-Engine DeepSpeech genutzt, aber auch die Mycroft AI sowie die Projekte Rhasspy und voice2json können damit umgehen. Common Voice will eine freie Alternative zu Amazons Alexa, Apples Siri oder Google Home entwickeln, da die kommerziellen Engines beispielsweise keine einzige afrikanische Sprache unterstützen. Eines der Ziele von Mozilla ist es, die Wortfehlerrate auf unter 10 % zu drücken. Die neuesten Versionen des vortrainierten englischsprachigen Modells erreichen dieses Ziel mit einer durchschnittlichen Wortfehlerrate von etwa 7,5 %.

Übergabe von DeepSpeech an Organisationen

Nach Mozillas Ansicht ist DeepSpeech an einem Punkt, wo es Sinn ergibt, weitere Anwendungen dafür zu entwickeln. Zu diesem Zweck plant das Unternehmen, das Projekt für die Weiterentwicklung an interessierte »Personen und Organisationen« zu übergeben. Mozilla sagt, dass es die kontinuierlichen Integrationsprozesse gestrafft hat, um DeepSpeech mit minimalen Abhängigkeiten zum Laufen zu bringen. Zudem will Mozilla ein Toolkit veröffentlichen, das Forschern, Unternehmen und allen interessierten Parteien dabei helfen soll, DeepSpeech zu nutzen, um sprachbasierte Lösungen zu entwickeln. Wer selbst einmal mit DeepSpeech experimentieren möchte, kann sich die Anleitung auf heise online als Grundlage nehmen, die beschreibt, wie man DeepSpeech auf dem Raspberry Pi testen kann. Auch die Entwicklung von Sprachmodellen für den eigenen Bedarf ist kein Hexenwerk.

Teilt den Beitrag, falls ihr mögt

Abonnieren
Benachrichtige mich bei
7 Kommentare
Most Voted
Newest Oldest
Inline Feedbacks
View all comments