Ein Update für ein Werkzeug, das nie aus der Mode kommt
Wie Phoronix berichtet, ist GNU Gawk 5.4 erschienen – und bringt die wohl bedeutsamste Änderung seit Jahren mit sich. Für ein Programm, das seit Jahrzehnten in Shell-Skripten, Log-Analyse-Pipelines und Data-Processing-Workflows seinen zuverlässigen Dienst verrichtet, ist das bemerkenswert. Denn während viele Entwickler längst zu moderneren Tools gewechselt haben, wird AWK und seine GNU-Implementierung weiterhin aktiv gepflegt und verbessert.
Die wichtigste Neuerung ist die Einführung von MinRX, einer komplett neuen Regular-Expression-Engine, die nicht nur Performance-Gewinne bringt, sondern auch ein lange bestehendes Konformitätsproblem löst. Entwickelt wurde MinRX von Mike Haertel – dem ursprünglichen Autor von GNU grep. Wer also schon mal bewundert hat, wie rasend schnell grep durch Terabytes an Logdateien pflügt, darf sich jetzt auf ähnliche Optimierungen in AWK freuen.
MinRX: Endlich vollständig POSIX-konform
Das größte Problem der bisherigen Gawk-Implementierung war ein subtiles, aber wichtiges: Die alten Regex- und DFA-Engines waren nie vollständig POSIX-konform. In der Praxis fiel das meist nicht auf – doch in Edge Cases konnte es zu unerwartetem Verhalten führen, das Entwickler nur schwer nachvollziehen konnten.
MinRX räumt mit diesem Problem auf und macht Gawk endlich vollständig POSIX-konform. Die älteren Regex-Engines bleiben zwar noch verfügbar und können explizit aktiviert werden – etwa für Kompatibilitätszwecke oder wenn jemand auf Nummer sicher gehen möchte. In der Praxis wird aber kaum jemand zu den alten Engines zurückwechseln wollen. Das ist typisch für gut durchdachte Übergänge in Open-Source-Projekten: Man bewahrt Rückwärtskompatibilität, treibt aber die Modernisierung voran.
9% schneller beim Lesen großer Dateien
Neben der neuen Regex-Engine hat das Gawk-Team auch beim File-Handling nachgebessert. Eine kleine, aber wichtige Optimierung: Das Tool überprüft jetzt nicht mehr auf Timeouts beim Lesen regulärer Dateien von der Festplatte. Diese Überprüfung war schlicht überflüssig – bei lokalen Dateisystemen gibt es keine Timeouts wie bei Netzwerk-Operationen. Sie war also nur eine Verschwendung von CPU-Zyklen.
Das Ergebnis dieser Optimierung: Bei großen Dateien ist Gawk 5.4 rund 9% schneller als die Vorgängerversion. Das klingt auf den ersten Blick nach wenig – aber für Entwickler und Systemadministratoren, die täglich Logfiles mit mehreren Gigabyte durch AWK-Skripte verarbeiten, wird dieser Unterschied deutlich spürbar. In einer Welt, in der jeder über "Cloud-native", "Big Data" und "KI-Pipelines" spricht, ist es erfrischend zu sehen, dass klassische Unix-Tools weiter optimiert und gepflegt werden. Diese Grundlagen sind immer noch unverzichtbar.
Windows und UTF-8: Endlich erwachsen geworden
Eine weitere wichtige Verbesserung betrifft alle Nutzer, die nicht in einer reinen Linux-Umgebung arbeiten: Der MinGW-Windows-Port unterstützt jetzt vollständig UTF-8-encodierte non-ASCII-Texte. Auch Cygwin hat UTF-8-Unterstützung erhalten.
Dass UTF-8-Support im Jahr 2025 noch als Feature gefeiert werden muss, sagt viel über den Zustand mancher Windows-Ports aus. Aber besser spät als nie – Gawk ist damit endlich international einsatzfähig, ohne dass Nutzer sich mit frustrierenden Encoding-Problemen herumschlagen müssen. Das ist besonders wichtig für Teams, die global verteilt arbeiten und mit Texten in verschiedenen Sprachen hantieren.
Weitere Verbesserungen: Von OpenVMS bis arabische Übersetzungen
Die Release Notes lesen sich wie ein Best-of vergessener Betriebssysteme: Verbesserter BSD-Support, bessere OpenVMS-Unterstützung. Ja, OpenVMS – das Betriebssystem, das die meisten für längst verstorben halten, aber offenbar immer noch in kritischen Infrastrukturen von Banken und großen Konzernen vor sich hin werkelt.
Erstmals gibt es auch arabische Übersetzungen. Das ist mehr als nur eine nette Geste – Gawk wird damit zugänglicher für Entwickler weltweit und trägt zu einer inklusiveren Open-Source-Community bei.
Technisch erwähnenswert ist auch der neue --enable-o3 Build-Flag, der aggressive Compiler-Optimierungen mit -O3 ermöglicht. Wer maximale Performance will und das Risiko potenzieller Compiler-Bugs in Kauf nimmt, kann hier noch ein paar Prozentpunkte Performance rausholen.
Community-Standards: Klare Grenzen setzen
Eine etwas kuriose, aber wichtige Änderung versteckt sich in der Dokumentations-Aktualisierung: Ad-Hominem-Attacken sind jetzt explizit in der Community-Richtlinie verboten, und die Diskussion proprietärer Software wird "stark entmutigt". Man muss kein Hellseher sein, um zu erahnen, dass es auf der Mailingliste wohl unschöne Vorfälle gab. Gut, dass das Team klare Grenzen zieht – auch in Open-Source-Communities braucht es Standards für respektvolle Kommunikation.
Fazit: Solide Evolution statt Revolution
Gawk 5.4 ist kein Rewrite, keine drastische Neuerfindung. Es ist die stetige, solide Weiterentwicklung eines Werkzeugs, das seit 1977 (als original AWK) existiert. Neue Regex-Engine, bessere Performance, modernere Encoding-Unterstützung, verbesserte Plattform-Unterstützung – genau das, was man von einem Major-Release erwartet, nur konsequent umgesetzt.
In einer Softwarewelt, in der jedes zweite Tool nach einem Jahr deprecated ist und durch ein "moderneres" Äquivalent ersetzt wird, ist es beruhigend und inspirierend zu sehen, dass die Unix-Grundlagen weiter gepflegt werden. Gawk wird auch in zehn Jahren noch in Produktions-Skripten laufen – und jetzt eben ein bisschen schneller, zuverlässiger und internationaler.