Python-Dateiverarbeitung — Dateien richtig lesen und schreiben

Pythons eingebaute Dateiverarbeitung ist eine der echten Stärken der Sprache — keine Imports für grundlegende Lese-/Schreiboperationen nötig, und die API ist klar genug, um sie in einem Nachmittag zu erlernen. Aber es gibt eine echte Lücke zwischen der Tutorial-Version und dem, was man tatsächlich ausliefern würde. Die Tutorial-Version öffnet eine Datei, liest sie und schließt sie. Die Produktionsversion behandelt Kodierungsfehler, die Daten stillschweigend korrumpieren, Pfade, die auf macOS funktionieren, aber auf Windows crashen, und Log-Dateien, die unbemerkt den gesamten Speicher auffressen, wenn man read() auf einer 2-GB-Datei aufruft. Dieser Artikel behandelt die Muster, die halten — nicht nur den Happy Path.

Das with-Statement — Immer verwenden

Jedes Dateiverarbeitungsbeispiel in Python sollte einen Context Manager verwenden — den with-Block, der sicherstellt, dass die Datei geschlossen wird, auch wenn eine Ausnahme mitten beim Lesen geworfen wird. Ein Context Manager ist ein Objekt, das definiert, was beim Eintreten und Verlassen eines with-Blocks passiert; für Dateien bedeutet Verlassen, dass close() automatisch aufgerufen wird. Hier ist, warum das in der Praxis wichtig ist:

python

# ❌ Manual close — works until it doesn't
f = open('app.log')
data = f.read()   # if this raises an exception...
f.close()         # ...this line never runs. File handle leaks.

# ✅ Context manager — close() is guaranteed
with open('app.log') as f:
    data = f.read()
# file is closed here, no matter what happened inside the block

Auf langlebigen Servern ist das nicht akademisch — das Leaken von Datei-Handles verursacht schließlich OSError: [Errno 24] Too many open files. Das with-Statement kostet nichts und verhindert diese Fehlerklasse vollständig. Überall verwenden.

Dateien lesen — Vier Wege, ein richtiges Werkzeug jeweils

Python gibt einem mehrere Methoden auf einem Dateiobjekt, und die Auswahl der richtigen ist wichtiger als die meisten Tutorials zugeben:

f.read() — liest die gesamte Datei in einen einzelnen String. Für kleine Konfigurationsdateien in Ordnung, für große gefährlich.
f.readline() — liest eine Zeile auf einmal und bewegt den internen Zeiger. Nützlich, wenn man manuelle Kontrolle über die Iteration benötigt.
f.readlines() — liest alle Zeilen in eine Liste. Praktisch, lädt aber immer noch die gesamte Datei in den Speicher.
for line in f: — das Iterator-Protokoll. Liest eine Zeile auf einmal, ohne die gesamte Datei zu laden. Dies ist das standardmäßig zu verwendende.

Hier ist ein realistisches Beispiel: Eine .env-ähnliche Konfigurationsdatei lesen und sie in ein Dictionary umwandeln. Dies ist die Art von Sache, die man tatsächlich schreibt, kein konstruiertes „read hello.txt"-Demo:

python

from pathlib import Path

def load_config(path: str) -> dict:
    """Read a key=value config file, ignoring comments and blank lines."""
    config = {}
    with open(path, encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            if not line or line.startswith('#'):
                continue
            if '=' not in line:
                continue
            key, _, value = line.partition('=')
            config[key.strip()] = value.strip()
    return config

# Usage
settings = load_config('config/app.conf')
db_host = settings.get('DB_HOST', 'localhost')

Die .strip()-Gewohnheit: Beim Lesen von Zeilen enthält jede Zeile außer der letzten ein nachfolgendes \n (und auf Windows \r\n). line.strip() aufrufen, um beides zu entfernen. Wenn man nur den Zeilenumbruch und nicht führende Leerzeichen entfernen möchte, stattdessen line.rstrip('\n') verwenden.

Schreiben und Anhängen — Wissen, welcher Modus Daten zerstört

Das zweite Argument für open() ist der Modus. Zwei Modi bringen Menschen immer wieder zu Fall:

'w' — Schreibmodus. Öffnet die Datei zum Schreiben. Falls die Datei bereits existiert, wird sie sofort auf null Bytes gekürzt — bevor ein einziges Zeichen geschrieben wird. Dies ist stille Datenzerstörung, wenn man den falschen Pfad öffnet.
'a' — Anhänge-Modus. Öffnet die Datei und bewegt den Schreibzeiger ans Ende. Bestehender Inhalt wird nie angetastet. Neue Schreibvorgänge gehen hinter das, was bereits da war.

Ein guter Anwendungsfall für den Anhänge-Modus ist das Schreiben einer strukturierten Log-Datei mit Zeitstempeln. Hier ist ein Muster, das sowohl in Skripten als auch in kleinen Diensten nützlich ist:

python

import datetime

LOG_FILE = 'logs/pipeline.log'

def log_event(level: str, message: str) -> None:
    timestamp = datetime.datetime.utcnow().isoformat() + 'Z'
    line = f"[{timestamp}] {level.upper()}: {message}\n"
    with open(LOG_FILE, 'a', encoding='utf-8') as f:
        f.write(line)

log_event('info', 'Pipeline started')
log_event('warning', 'Retrying connection to database')
log_event('error', 'Failed to parse row 4821 — skipping')

Warnung: open(path, 'w') erstellt die Datei, falls sie nicht existiert — was praktisch ist — aber es zerstört auch still die Datei, falls sie existiert. Ein falsch getippter Pfad kann eine Produktionsdatei ohne Fehlermeldung löschen. Wenn man nicht sicher ist, ob die Datei überschrieben werden soll, zuerst mit Path(path).exists() prüfen oder den 'x'-Modus verwenden, der FileExistsError auslöst, anstatt zu überschreiben.

Kodierung — Der Fehler, der jeden irgendwann beißt

Dies ist die bei weitem häufigste Quelle stiller Datenkorrumption bei der Python-Dateiverarbeitung. Pythons 3-Standard-Kodierung beim Aufruf von open() ohne Angabe wird durch locale.getpreferredencoding() bestimmt — was auf Windows typischerweise cp1252 ist und auf Linux/macOS üblicherweise UTF-8. Das bedeutet, Code, der auf dem Mac perfekt funktioniert, kann auf einem Windows-Server still verstümmeln oder abstürzen, wenn die Datei Zeichen außerhalb von ASCII enthält. Die Lösung ist ein zusätzliches Argument:

python

# ❌ Platform-dependent — works on Linux, corrupts on Windows
with open('customers.csv') as f:
    data = f.read()

# ✅ Explicit UTF-8 — same behavior on every platform
with open('customers.csv', encoding='utf-8') as f:
    data = f.read()

# For files exported from Excel on Windows — may have a BOM (byte order mark)
# utf-8-sig strips the BOM automatically on read
with open('export.csv', encoding='utf-8-sig') as f:
    data = f.read()

Das BOM-Problem ist besonders häufig bei CSV-Dateien, die aus Microsoft Excel exportiert wurden — die Datei beginnt mit einem versteckten \ufeff-Zeichen, das als ï»¿ erscheint, wenn es mit der falschen Kodierung gelesen wird, oder den ersten Spaltenheader wie name statt name aussehen lässt. encoding='utf-8-sig' behandelt es transparent. Für die vollständige Liste der Kodierungsnamen, die Python-Codecs-Dokumentation ansehen.

Faustregel: Immer encoding='utf-8' (oder 'utf-8-sig' für Excel-Exporte) bei jedem open()-Aufruf angeben. Es zur Gewohnheit machen — es kostet nichts und eliminiert eine ganze Kategorie umgebungsspezifischer Fehler.

Mit Pfaden arbeiten — pathlib verwenden

Der alte Weg, Dateipfade in Python aufzubauen, war String-Konkatenation oder os.path.join(). Der moderne Weg ist pathlib.Path, verfügbar seit Python 3.4 und vollständig ausgereift seit 3.6. Er behandelt Pfadtrennzeichen auf Windows und Unix korrekt, ohne darüber nachdenken zu müssen, und ersetzt eine Handvoll os.path-Aufrufe durch lesbaren Attributzugriff.

python

from pathlib import Path

# Build a path relative to the current script — works on Windows and Unix
base_dir = Path(__file__).parent
data_dir = base_dir / 'data'
input_file = data_dir / 'records.csv'

# Check existence before opening
if not input_file.exists():
    raise FileNotFoundError(f"Input file not found: {input_file}")

# Create a directory (including parents) without error if it already exists
output_dir = base_dir / 'output' / 'reports'
output_dir.mkdir(parents=True, exist_ok=True)

# Iterate over all JSON files in a directory
for json_file in data_dir.glob('*.json'):
    print(json_file.name)       # just the filename: 'records.json'
    print(json_file.stem)       # filename without extension: 'records'
    print(json_file.suffix)     # extension: '.json'
    print(json_file.parent)     # parent directory as a Path

# The / operator builds paths — no os.path.join needed
report_path = output_dir / f"report_{input_file.stem}.txt"

Der /-Operator ist hier keine Division — Path überschreibt ihn, um Pfadverbindung zu bedeuten. Das liest sich natürlich und eliminiert die Anführungszeichen- und Trennzeichenprobleme, die mit zeichenkettenbasiertem Pfadaufbau entstehen. Eine weitere nützliche Methode: path.read_text(encoding='utf-8') ist eine Abkürzung für das Öffnen/Lesen/Schließen-Muster, wenn man einfach nur den Dateiinhalt als String möchte.

Große Dateien lesen, ohne den Speicher zu sprengen

Wenn eine Datei klein ist — sagen wir unter ein paar Megabyte — ist f.read() oder f.readlines() in Ordnung. Wenn es ein 500-MB-Server-Log oder ein mehrgigabyte großer Datenexport ist, ist das Laden des gesamten Inhalts in den Speicher ein schneller Weg zu einem MemoryError oder einem Prozess-Kill durch das OS. Die Lösung ist zeilenweise Iteration:

python

from pathlib import Path
from collections import Counter

def count_error_levels(log_path: str) -> dict:
    """
    Process a large log file line by line.
    Memory usage stays roughly constant regardless of file size.
    """
    counts = Counter()
    with open(log_path, encoding='utf-8') as f:
        for line in f:
            # Each line is fetched from disk as needed — not loaded all at once
            if ' ERROR ' in line:
                counts['error'] += 1
            elif ' WARN ' in line:
                counts['warning'] += 1
            elif ' INFO ' in line:
                counts['info'] += 1
    return dict(counts)

results = count_error_levels('/var/log/app/server.log')
print(f"Errors: {results.get('error', 0)}, Warnings: {results.get('warning', 0)}")

Das for line in f:-Muster funktioniert, weil Pythons Dateiobjekt das Iterator-Protokoll implementiert — es holt Zeilen mit einem internen Puffer von der Festplatte, sodass die Speichernutzung unabhängig von der Dateigröße im Wesentlichen konstant ist. Für wirklich massive Dateien (Zehner von Gigabyte), bei denen sogar zeilenweise Iteration nicht schnell genug ist, ermöglicht mmap das Memory-Mapping der Datei und die Suche mit regulären Ausdrücken, ohne sie überhaupt zu lesen — aber für die meisten Anwendungsfälle ist der Zeilen-Iterator alles, was man braucht.

JSON und CSV lesen und schreiben

Zwei Formate tauchen ständig in echten Python-Projekten auf, und beide haben dedizierte Stdlib-Module, die Anführungszeichen, Escaping und Struktur korrekt behandeln — nicht mit String-Splits parsen.

python

import json
import csv
from pathlib import Path

# --- JSON ---
# Reading
with open('config/settings.json', encoding='utf-8') as f:
    settings = json.load(f)            # parsed directly from the file object

# Writing (indent=2 gives readable output)
with open('output/results.json', 'w', encoding='utf-8') as f:
    json.dump(results, f, indent=2, ensure_ascii=False)

# --- CSV ---
# Reading
with open('data/customers.csv', encoding='utf-8-sig', newline='') as f:
    reader = csv.DictReader(f)         # each row is a dict keyed by header
    for row in reader:
        process_customer(row['email'], row['plan'])

# Writing
fieldnames = ['id', 'email', 'plan', 'created_at']
with open('output/export.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    for record in records:
        writer.writerow(record)

Ein paar Dinge, die erwähnenswert sind: newline='' beim Öffnen von CSV-Dateien übergeben — das csv-Modul verarbeitet seine eigenen Zeilenenden, und das Eingreifen von Pythons universalem Zeilenumbruchmodus verursacht doppelte Leerzeilen auf Windows. Für JSON lässt ensure_ascii=False Nicht-ASCII-Zeichen (akzentuierte Buchstaben, CJK-Zeichen usw.) unverändert schreiben, anstatt sie zu \uXXXX-Sequenzen zu escapen — viel lesbarere Ausgabe. Wenn man mit JSON- oder CSV-Daten arbeitet und sie visuell inspizieren oder transformieren möchte, sind der JSON Formatter und der CSV Formatter auf dieser Seite gute Ergänzungen zum Code-Ansatz.

Fehlerbehandlung — Die drei Ausnahmen, die man sehen wird

Dateioperationen schlagen auf vorhersehbare Weise fehl. Jeden Fall explizit zu behandeln gibt Fehlermeldungen, die wirklich nützlich sind, anstatt eines generischen Tracebacks:

python

import json
from pathlib import Path

def load_json_config(path: str) -> dict:
    """
    Load a JSON config file with explicit error handling.
    Returns the parsed config or raises with a clear message.
    """
    config_path = Path(path)

    try:
        with open(config_path, encoding='utf-8') as f:
            return json.load(f)

    except FileNotFoundError:
        raise FileNotFoundError(
            f"Config file not found: {config_path.resolve()}\n"
            f"Create it or set CONFIG_PATH to the correct location."
        )

    except PermissionError:
        raise PermissionError(
            f"No read permission on {config_path.resolve()}\n"
            f"Check file ownership and mode (chmod 644 on Linux)."
        )

    except UnicodeDecodeError as e:
        raise ValueError(
            f"Encoding error reading {config_path}: {e}\n"
            f"Try opening with encoding='utf-8-sig' if the file came from Windows."
        )

    except json.JSONDecodeError as e:
        raise ValueError(
            f"Invalid JSON in {config_path} at line {e.lineno}, col {e.colno}: {e.msg}"
        )

Die vier Ausnahmen decken fast jeden echten Fehlerfall ab: Die Datei existiert nicht, man hat keine Berechtigung, die Kodierung ist falsch oder der Inhalt ist fehlerhaft. Jede Meldung sagt dem nächsten Entwickler (oder einem selbst nachts um 2 Uhr) genau, was falsch ist und wo man nachschauen soll. Eine blanke Exception zu fangen und „etwas ist schiefgelaufen" zu drucken ist keine nützliche Fehlerbehandlung — es verlagert die Verwirrung nur nach unten.

Wann neu auslösen vs None zurückgeben: Falls eine fehlende Konfigurationsdatei ein fataler Fehler für das Skript ist, neu auslösen (oder eine neue Ausnahme werfen), sodass der Aufrufer laut scheitert. Falls sie optional ist — etwa eine Pro-Benutzer-Überschreibungsdatei — ist es in Ordnung, FileNotFoundError zu fangen und None oder ein Standard-Dict zurückzugeben. Ein Verhalten pro Funktion wählen und es dokumentieren.

Zusammenfassung

Die Kurzfassung von allem oben: Immer with-Blöcke verwenden, immer encoding='utf-8' übergeben, pathlib.Path für Pfadkonstruktion verwenden und Zeilen iterieren statt ganze Dateien zu lesen, wenn die Größe unbekannt ist. Diese vier Gewohnheiten eliminieren die weitaus größte Mehrheit der Dateiverarbeitungsfehler, bevor sie in die Produktion gelangen.

Für tieferes Lesen: Der Python-Tutorial-Abschnitt über Dateien lesen und schreiben deckt die Grundlagen gründlich ab. Die pathlib-Dokumentation ist ein Lesezeichen wert — es ist einer der nützlichsten Teile der Stdlib und die meisten Python-Entwickler nutzen es zu wenig. Die csv-Modul-Dokumentation und die json-Modul-Dokumentation haben beide gute Beispiele für Grenzfälle (benutzerdefinierte Trennzeichen, Streaming-JSON usw.), die es wert sind, sie zu lesen, wenn man regelmäßig mit diesen Formaten arbeitet.

← All Python articles Browse all categories →