Mozilla veröffentlicht Common Voice Corpus 8.0

Common Voice

Mozillas Open-Source-Projekt Common Voice hat das Erstellen einer freien Datenbank für Spracherkennungs-Software zum Ziel, um Geräten beizubringen, wie echte Menschen zu sprechen. Nach dem Prinzip des Crowdfunding sprechen Menschen weltweit Beispielsätze ein, die dann überprüft und in der Datenbank gesammelt werden.

Um 30 Prozent gewachsen

Nach einem Update im August letzten Jahres haben die Entwickler gerade Common Voice Corpus 8.0 veröffentlicht. Damit wird die bisher schon größte Sammlung ihrer Art um weitere 30 Prozent und 11 neue Sprachen erweitert. Die Datenbank umfasst nun über 18.000 Stunden aufgenommenes Sprachmaterial in mittlerweile 87 Sprachen. Der Datensatz für die englische Sprache umfasst 70 GByte an Daten, für Deutsch sind es 28 GByte.

Deep Speech

Die Datenbank wird unter anderem von Mozillas mit Tensor Flow realisierter Spracherkennungs-Engine DeepSpeech genutzt, aber auch die Mycroft AI sowie die Projekte Rhasspy und voice2json können damit umgehen. Common Voice will eine freie Alternative zu Amazons Alexa, Apples Siri oder Google Home entwickeln, da die kommerziellen Engines beispielsweise keine einzige afrikanische Sprache unterstützen. Eines der Ziele von Mozilla ist es, die Wortfehlerrate auf unter 10 % zu drücken. Die neuesten Versionen des vortrainierten englischsprachigen Modells erreichen dieses Ziel mit einer durchschnittlichen Wortfehlerrate von etwa 7,5 %.

Übergabe von DeepSpeech an Organisationen

Nach Mozillas Ansicht ist DeepSpeech an einem Punkt, wo es Sinn ergibt, weitere Anwendungen dafür zu entwickeln. Zu diesem Zweck plant das Unternehmen, das Projekt für die Weiterentwicklung an interessierte »Personen und Organisationen« zu übergeben. Mozilla sagt, dass es die kontinuierlichen Integrationsprozesse gestrafft hat, um DeepSpeech mit minimalen Abhängigkeiten zum Laufen zu bringen. Zudem will Mozilla ein Toolkit veröffentlichen, das Forschern, Unternehmen und allen interessierten Parteien dabei helfen soll, DeepSpeech zu nutzen, um sprachbasierte Lösungen zu entwickeln. Wer selbst einmal mit DeepSpeech experimentieren möchte, kann sich die Anleitung auf heise online als Grundlage nehmen, die beschreibt, wie man DeepSpeech auf dem Raspberry Pi testen kann. Auch die Entwicklung von Sprachmodellen für den eigenen Bedarf ist kein Hexenwerk.

Teilt den Beitrag, falls ihr mögt

7 Kommentare

  1. Common Voice und Deep Speech sind m.E. echte Leuchturmprojekte von Mozilla. Ein offener Sprachkorpus ist vielleicht sogar das wichtigste Projekt seit der Gründung von Wikipedia.

    Was der letzte Absatz “das Projekt für die Weiterentwicklung an interessierte »Personen und Organisationen« zu übergeben” bedeutet, ist für mich jedoch ein großes Fragezeichen. Weiß da jemand mehr?

    2
    1. > Was der letzte Absatz “das Projekt für die Weiterentwicklung an interessierte »Personen und Organisationen« zu übergeben” bedeutet, ist für mich jedoch ein großes Fragezeichen. Weiß da jemand mehr?

      Die Entwicklung von sowas kostet Geld. Das kann besser in die Taschen der oberen Managementebene flutschen wenn die Entwickler rausgeworfen werden. Dann kann das Projekt natürlich nicht mehr bei Mozilla bleiben da keine Ressourcen frei sind. Klingt doch logisch.

      1
        1. Hat nicht Mozilla in der Vergangenheit einige Entwickler (die Leute, die viel leisten) gefeuert, nur um danach die Gehälter der Vorstände (die Leute, die wenig leisten) zu erhöhen?
          Im Falle Mozillas ist so eine Bemerkung also durchaus legitim.

          3

Kommentar hinterlassen