Debian Swirl

Debian diskutiert erneut über KI

Mehrere Debian-Entwickler streben eine General Resolution (GR), also eine Grundsatzentscheidung, an, um zu klären, unter welchen Bedingungen LLMs in Debian eingesetzt werden können. Der erste Vorschlag unter dem Titel »Auslegung der DFSG auf Modelle der Künstlichen Intelligenz (KI)« von Mo Zhou aus dem Deep-Learning-Team stammt vom 19. April. Ein Gegenvorschlag von Torsten Glaser folgte am 23. April. Im Kern geht es um die Konformität der DFSG (Debian Free Software Guidelines) mit der Art, wie Trainingsdaten von LLMs, auch solchen, die sich als Open Source bezeichnen, erhoben worden sind, mit ausgeliefert werden und wie transparent dies dokumentiert ist.

Bisher zwei Vorschläge

Der erste Vorschlag, über den die Entwickler entscheiden sollen, lautet:

Vorschlag A: KI-Modelle, die unter einer Open-Source-Lizenz ohne originale Trainingsdaten oder -programme veröffentlicht werden, werden nicht als DFSG-konform angesehen.

Werden solche Modelle nicht als DFSG-konform angesehen, würde sie das aus dem Main-Zweig von Debian ausschließen, sie müssten als contrib oder non-free klassifiziert und in den entsprechenden Repositories einsortiert werden. Dieser Vorschlag erreichte die nötige Zahl von fünf Unterstützern innerhalb weniger Tage.

Der Gegenvorschlag ist restriktiver und formuliert:

Ein Modell darf nur aus rechtmäßig erworbenen und verwendeten Werken trainiert werden, muss alle Lizenzen der in der Ausbildung verwendeten Werke einhalten und muss selbst unter einer geeigneten Lizenz lizenziert sein, die die Verbreitung erlaubt, oder es ist nicht einmal für unfrei akzeptabel.

Diese Herangehensweise würde Modelle, die diese Bedingungen nicht erfüllen, generell aus den Debian-Repositories ausschließen. Diese wären dann nur aus dritter Hand zu beziehen, was viele Debian-Anwender ablehnen. Weiter heißt es dort:

Jede Arbeit, die aus der generativen Verwendung eines Modells resultiert, kann höchstens so frei sein wie das Modell selbst; z. B. verhindert die Programmierung mit einem Modell auscontrib/non-free, dass das Ergebnis in main eintritt.

Hinzu kommt der ökologische Aspekt, wenn Glaser schreibt:

Das Debian-Projekt bittet darum, dass die Trainingsquellen nicht unethisch beschafft und die ökologischen Auswirkungen des Trainings und der Verwendung von KI-Modellen berücksichtigt werden.

Der Gegenvorschlag von Glaser würde es sehr erschweren, LLMs in den Archiven von Debian vorzuhalten. Er hat bisher nur einen Unterstützer überzeugen können.

Glaser beschreibt die Forderungen seines Vorschlags auf Nachfrage mit:

Vorwiegend eine harte Anti-AI-Haltung (mit einigen Ausnahmen). Keine Diskussion über ihre Vorteile, keine Behauptung, sie sei unvermeidlich. Die Forderung nach vollständigen Quellenangaben, vollständiger Namensnennung usw. nach unseren normalen Verfahren. Keine Übernahme der OSAID-Terminologie.

Andere Herangehensweise

Der ehemalige Debian Project Leader Sam Hartman hat eine etwas andere Sicht auf KI in Debian:

Ich denke, dass es für Debian wichtig ist, KI-Modelle als frei zu betrachten, auch wenn diese Modelle auf Modellen basieren, die ihre Trainingsdaten nicht veröffentlichen. Im Sinne der DFSG denke ich, dass ein Modell selbst oft eine bevorzugte Form der Modifikation zur Erstellung abgeleiteter Werke ist.


Wenn wir uns zu sehr auf die Verfügbarkeit von Daten konzentrieren, werden wir meiner Meinung nach den großen Akteuren helfen und Einzelpersonen und kleine Mitwirkende aus dem Ökosystem der freien Software verdrängen. Ich werde eine GR-Option entwerfen, um diese Position zu unterstützen.

https://lists.debian.org/debian-project/2025/02/msg00014.html

Somit wird es vermutlich mindestens einen dritten Vorschlag von Sam Hartman geben, der einen lockereren Umgang mit LLMs einfordert, um nicht den großen Playern in die Hände zu spielen.

Nicht zum ersten Mal

Es ist nicht das erste Mal, dass Debian darüber diskutiert, wie man im Projekt mit KI umgehen soll. Bereits 2018 diskutierte man über Deep Learning. Im vergangenen Jahr wurde die Diskussion wieder aufgenommen, nachdem Gentoo die Verwendung von generativen KI/ML-Tools aufgrund von urheberrechtlichen, ethischen und qualitativen Bedenken verboten hatte. Es werden vermutlich noch einige Vorschläge eingereicht, bevor es in den kommenden Monaten zu einer GR kommt.

Was meint ihr?

Ich finde das Thema sehr spannend und die Diskussion bringt sehr viele Aspekte ans Licht, die bei dieser Frage, die unsere ehemalige Bundeskanzlerin als Neuland bezeichnen würde, gewürdigt werden müssen. Ich bin sehr gespannt, wie Debian sich hier aufstellt und damit vielleicht eine erste brauchbare Handlungsgrundlage für andere Projekte liefert.

Teilt den Beitrag, falls ihr mögt

10 Kommentare

  1. Ich finde das Zeugs braucht garnicht in die Repos.
    Wer sich den Scheiss installieren will der kanns doch tun, dazu braucht es nicht rein.
    Debian sollte sich treu bleiben, es ist schon schlimm genug, das sie auf den systemd Zug aufgesprungen sind und den Rotz standardmaessig ausliefern.

    3
  2. …ökologischen Auswirkungen des Trainings und der Verwendung von KI-Modellen berücksichtigt…

    Wie weltfremd muß man sein, um solches zu forumulieren?
    Mit welchen einigermaßen validen Mitteln will man dies je feststellen können?

    Grün-Rot-woke Traumschlösser, nicht von dieser Welt, aber vielleicht vom Mars?

    6
    1. Der erhöhte Stromverbrauch lässt sich durchaus bestimmen. Und wenn man Geldverschwendung als ökologische Auswirkung betrachtet, so berichtete Sam Altman von OpenAI anekdotisch, dass die Angewohnheit der User, bei der Nutzung von ChatGPT Danke und Bitte zu verwenden, das Unternehmen bereits mehrere 10 Millionen USD gekostet hat. Warum du hier politische Farben wie Grün und Rot ins Spiel bringst, erschließt sich mir nicht. Auch der Begriff ‘woke’ passt für mich nicht in diese Diskussion.

      20
  3. Derzeit gibt es kein Modell, was in die Debian Welt passen würde. Aber man könnte anfangen, einmal eins zu trainieren – ähnlich wie Linux mit einer großen Menge von Zuträgern. Das wird aber noch eine Weile dauern, bis GPUs/NPUs hinreichend günstig geworden sind. Das ist aber auf dem Weg. Dann können mehr Leute mitmachen.

    8
  4. Ich stehe ganz klar auf der Seite von Glaser. Nicht aus einer ‘Anti-KI-Haltung’ heraus, sondern aus ethisch-moralischen Gründen.

    Den Teil mit dem ‘Wettbewerb’ den Sam Hartman sieht, kann ich nicht nachvollziehen. Man muss keine Dinge tun, die man als nicht richtig betrachtet, nur um ‘mithalten’ zu können. Wozu muss Debian ‘mithalten’?

    Es muss nur das tun, was seine Nutzergemeinde benötigt und möchte, und es hat sich an seine eigenen ethischen Standards zu halten. Es gibt keinen Wettbewerb, nur verschiedene Angebote für unterschiedliche Communities. Debian sollte seinen hohen Standards treu bleiben.

    Dafür verzichte ich gern darauf, mir solche Modelle (die im übrigen eine viel zu kurze Lebenszeit haben und viel zu groß sind) aus den Debian-Repos zu holen.

    18
  5. Hach ja, KI … ich sehe das persönlich eher kritisch mit dem Kram. Was jetzt die Lage hier angeht, halte ich 2 Aspekte für wichtig:

    1. Ist das Model Open-Source oder nicht
    2. Die Trainingsdaten

    Bezüglich Punkt 1 halte ich es nicht per se für schlecht oder böse, wenn es nicht Open-Source wäre. Das liegt ja letztlich beim Entwickler. Punkt 2 hingegen ist etwas, wo ich auf Transparenz beharren würde. Sprich: Was für Daten wurden verwendet? Wo kommen die her? Gibt es für die Daten eine Erlaubnis/Lizenz sie für’s KI-Training zu benutzen?

    3
  6. Ich hab da keine starke Meinung dazu, da ich KI kaum nutze. Mit Vorschlag A oder den von Glaser könnte ich mitleben, wenn die Daten nicht geklaut werden, so wie es Meta, OpenAI, Google und DeepSeek machen. Die Daten der Debian Nutzer zu verwenden ist auch okay, wenn die es manuell akzeptieren müssen.

    17

Kommentar hinterlassen