Common Voice Logo

Mozilla Common Voice 25.0 veröffentlicht

Common Voice Corpus, der von Mozilla gepflegte, weltweit größte freie Datensatz menschlicher Stimmen, wurde in v25.0 veröffentlicht. Wir berichteten bereits mehrfach über dieses unter der Creative Commons CCO-Lizenz stehende Projekt. Das seit 2017 bestehende Projekt Common Voice fördert damit den Markt der Spracherkennung alternativ zu den großen kommerziellen Anbietern wie Amazon, Apple, Google und Microsoft.

Mozilla Common Voice 25

Der aktuelle Datensatz Common Voice Scripted Speech 25 deckt 290 Sprachen mit 41.792 Stunden eingesprochener Stimmen ab. Für die deutsche Sprache haben 20.466 Menschen insgesamt 1.486 Stunden an Sprachsamples eingesprochen. Die Sprachsätze stehen bei Mozilla zum Download bereit. Der deutsche Sprachsatz umfasst rund 35 GB.

Teilt den Beitrag, falls ihr mögt

2 Kommentare

    1. Diese Daten sind keine “Stimmen” für Sprachausgabesysteme sondern Rohdaten zum Training von Spracherkennungssystemen.
      Bei den Daten handelt es sich um eingesprochene Phrasen zu bekanntem Text, so dass man damit entsprechende Spracherkennungs-Modelle trainieren und testen kann.
      Das kannst du mit den einschlägigen Tools zum Trainieren von KIs verwenden, wenn du die entsprechende Hardware (oder eben Zeit) hast.

      0

Kommentar hinterlassen