Richtlinien für Machine Learning im Kernel diskutiert

Ein großes Thema der Kernel-Entwickler auf dem Maintainers Summit im Dezember 2025 in Tokyo war die Frage, wie mit Machine-Learning-Tools bei der Kernel-Entwicklung umzugehen sei.

Was ist ML?

Machine Learning, kurz ML, ist ein Teilbereich der KI, der sich auf das Lernen aus Daten konzentriert. ML nutzt Algorithmen und statistische Modelle, damit Systeme aus Beispieldaten Muster erlernen und Entscheidungen oder Vorhersagen treffen, ohne explizit für jede Regel programmiert zu sein. LLMs nutzen ML als zentrale Technologie, indem sie ihre Parameter durch ML-Algorithmen optimieren.

Diskussion auf dem Maintainers Summit

Kernel-Entwickler Sasha Levin diskutierte auf der Konferenz Richtlinien für Machine-Learning-Tools (LLMs) in der Kernel-Entwicklung. Es herrscht Einigkeit, dass menschliche Verantwortung für Patches zentral bleibt, rein maschinell erzeugte Beiträge unerwünscht sind und Tool-Nutzung offengelegt werden sollte. Levin hatte diese Richtlinien, die aus den Diskussionen auf der Mailingliste hervorgingen, bereits Anfang Dezember zur Diskussion gestellt.

Maintainer behalten Entscheidungsfreiheit

Der Kernkonsens beinhaltet, dass Maintainer die volle Entscheidungsfreiheit über Patches behalten. LLMs gelten als weitere Tools unter vielen, wobei laut Greg Kroah-Hartman der »Signed-off-by«-Prozess nach der manuellen Prüfung rechtliche Risiken abdeckt. Linus Torvalds betonte, der Fokus liege nicht auf Code-Generierung, sondern auf etablierten Anwendungen wie CVE-Erkennung und Patch-Reviews.

Copyright diskutiert

Das Problem des Copyrights bei Patches wurde ausgiebig diskutiert. Ted Ts’o meint, dieselben Probleme bestünden auch ohne diese Hilfsmittel. Beispielsweise könnten Entwickler Patches einreichen, ohne die von ihrem Arbeitgeber vorgeschriebenen Verfahren zu durchlaufen, und somit Patches abliefern, zu deren Einreichung sie nicht berechtigt sind. Dave Airlie sagte, dass jeder urheberrechtlich geschützte Code, der von einem LLM in einen Patch eingefügt wird, wahrscheinlich aus dem Kernel selbst stammt und damit unbedenklich sei. Arnd Bergmann wies darauf hin, dass es sinnvoll sein könne, zwischen den verschiedenen Modelltypen zu unterscheiden. Die Ausführung eines eigenen Modells vor Ort unterscheide sich von der Nutzung eines Tools eines Drittanbieters.

Kaum KI-generierter Code

Laut Torvalds sind Probleme des Copyrights im Zusammenhang mit LLM-geschriebenem Code bisher rein hypothetischer Natur, da bisher kaum von LLMs geschriebener Code für den Kernel eingereicht worden sei. Die Tools würden eher für andere Zwecke eingesetzt, darunter die Erkennung von CVEs und von Kandidaten für stabile Backports sowie für die Überprüfung von Patches. Gerade bei letzterem erwiesen sich die Tools laut Andrew Morton als äußerst nützlich, da sie Fehler im Code entdeckten, die menschliche Reviewer übersehen hatten.

Thema nicht abschließend geklärt

Gegen Ende der Sitzung erklärte Levin, er werde einen Dokumentations-Patch veröffentlichen, in dem LLM-Tools aufgefordert werden, ein »Assisted-by«-Tag hinzuzufügen, was aber nicht zur Regel erhoben werden soll. Das Thema ist noch nicht abschließend entschieden, die weitere Entwicklung auf diesem schnelllebigen Gebiet wird auch weitere Diskussionen zur Folge haben.