Gestione dei File Python — Leggere e Scrivere nel Modo Giusto

La gestione dei file integrata di Python è uno dei veri punti di forza del linguaggio — nessun import necessario per le operazioni di lettura/scrittura di base, e l'API è abbastanza pulita da imparare in un pomeriggio. Ma c'è un divario reale tra la versione del tutorial e ciò che si spedirebbe in produzione. La versione del tutorial apre un file, lo legge e lo chiude. La versione di produzione gestisce mancate corrispondenze di codifica che corrompono i dati silenziosamente, percorsi che funzionano su macOS ma esplodono su Windows, e file di log che consumano tutta la memoria se si chiama read() su un file da 2 GB. Questo articolo copre i pattern che reggono — non solo il percorso felice.

L'istruzione with — Usarla Sempre

Ogni esempio di gestione dei file in Python dovrebbe utilizzare un context manager — il blocco with che garantisce la chiusura del file anche se viene sollevata un'eccezione durante la lettura. Un context manager è un oggetto che definisce cosa accade all'entrata e all'uscita da un blocco with; per i file, l'uscita significa che close() viene chiamato automaticamente. Ecco perché è importante in pratica:

python

# ❌ Manual close — works until it doesn't
f = open('app.log')
data = f.read()   # if this raises an exception...
f.close()         # ...this line never runs. File handle leaks.

# ✅ Context manager — close() is guaranteed
with open('app.log') as f:
    data = f.read()
# file is closed here, no matter what happened inside the block

Sui server a lunga esecuzione questo non è accademico — la perdita di handle di file causa eventualmente OSError: [Errno 24] Too many open files. L'istruzione with non costa nulla e previene completamente questa classe di bug. Usarla ovunque.

Lettura dei File — Quattro Modi, Uno Strumento Giusto per Ogni Occasione

Python fornisce diversi metodi su un oggetto file, e scegliere quello giusto è più importante di quanto ammettano la maggior parte dei tutorial:

f.read() — legge l'intero file in una singola stringa. Ottimo per piccoli file di configurazione, pericoloso per quelli grandi.
f.readline() — legge una riga alla volta, avanzando il puntatore interno. Utile quando si necessita di controllo manuale sull'iterazione.
f.readlines() — legge tutte le righe in una lista. Conveniente, ma carica comunque l'intero file in memoria.
for line in f: — il protocollo iteratore. Legge una riga alla volta senza caricare l'intero file. Questo è quello da usare per impostazione predefinita.

Ecco un esempio realistico: leggere un file di configurazione in stile .env e trasformarlo in un dizionario. Questo è il tipo di cosa che si scrive davvero, non una demo artificiosa "leggi hello.txt":

python

from pathlib import Path

def load_config(path: str) -> dict:
    """Read a key=value config file, ignoring comments and blank lines."""
    config = {}
    with open(path, encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            if not line or line.startswith('#'):
                continue
            if '=' not in line:
                continue
            key, _, value = line.partition('=')
            config[key.strip()] = value.strip()
    return config

# Usage
settings = load_config('config/app.conf')
db_host = settings.get('DB_HOST', 'localhost')

L'abitudine a .strip(): Quando si leggono le righe, ogni riga tranne l'ultima include un \n finale (e su Windows, \r\n). Chiamare line.strip() per rimuoverli entrambi. Se si vuole rimuovere solo il newline e non gli spazi iniziali, usare line.rstrip('\n') invece.

Scrittura e Aggiunta — Sapere Quale Modalità Distrugge i Dati

Il secondo argomento di open() è la modalità. Due modalità mettono in difficoltà le persone ripetutamente:

'w' — modalità scrittura. Apre il file per la scrittura. Se il file esiste già, viene troncato a zero byte immediatamente — prima di scrivere un singolo carattere. Questa è una distruzione silenziosa di dati se si apre il percorso sbagliato.
'a' — modalità aggiunta. Apre il file e sposta il puntatore di scrittura alla fine. Il contenuto esistente non viene mai toccato. Le nuove scritture vanno dopo ciò che era già presente.

Un buon caso d'uso per la modalità di aggiunta è la scrittura di un file di log strutturato con timestamp. Ecco un pattern utile sia negli script che nei piccoli servizi:

python

import datetime

LOG_FILE = 'logs/pipeline.log'

def log_event(level: str, message: str) -> None:
    timestamp = datetime.datetime.utcnow().isoformat() + 'Z'
    line = f"[{timestamp}] {level.upper()}: {message}\n"
    with open(LOG_FILE, 'a', encoding='utf-8') as f:
        f.write(line)

log_event('info', 'Pipeline started')
log_event('warning', 'Retrying connection to database')
log_event('error', 'Failed to parse row 4821 — skipping')

Avviso: open(path, 'w') crea il file se non esiste — il che è conveniente — ma distrugge silenziosamente il file se esiste. Un percorso digitato male può cancellare un file di produzione senza alcun messaggio di errore. Se non si è sicuri che il file debba essere sovrascritto, verificare prima con Path(path).exists() o usare la modalità 'x', che solleva FileExistsError invece di sovrascrivere.

Codifica — Il Bug che Prima o Poi Morde Tutti

Questa è la fonte più comune di corruzione silenziosa dei dati nella gestione dei file Python. La codifica predefinita di Python 3 quando si chiama open() senza specificarne una è determinata da locale.getpreferredencoding() — che su Windows è tipicamente cp1252, e su Linux/macOS è solitamente UTF-8. Questo significa che il codice che funziona perfettamente sul Mac può danneggiare silenziosamente o mandare in crash un server Windows quando il file contiene qualsiasi carattere fuori dall'ASCII. La soluzione è un argomento extra:

python

# ❌ Platform-dependent — works on Linux, corrupts on Windows
with open('customers.csv') as f:
    data = f.read()

# ✅ Explicit UTF-8 — same behavior on every platform
with open('customers.csv', encoding='utf-8') as f:
    data = f.read()

# For files exported from Excel on Windows — may have a BOM (byte order mark)
# utf-8-sig strips the BOM automatically on read
with open('export.csv', encoding='utf-8-sig') as f:
    data = f.read()

Il problema del BOM è particolarmente comune con i file CSV esportati da Microsoft Excel — il file inizia con un carattere nascosto \ufeff che appare come ï»¿ se letto con la codifica sbagliata, o fa sì che il primo intestazione di colonna sembri name invece di name. Usare encoding='utf-8-sig' lo gestisce in modo trasparente. Consultare la documentazione Python codecs per l'elenco completo dei nomi di codifica.

Regola generale: Passare sempre encoding='utf-8' (o 'utf-8-sig' per le esportazioni Excel) a ogni chiamata open(). Farne un'abitudine — non costa nulla ed elimina un'intera categoria di bug specifici dell'ambiente.

Lavorare con i Percorsi — Usare pathlib

Il vecchio modo di costruire percorsi di file in Python era la concatenazione di stringhe o os.path.join(). Il modo moderno è pathlib.Path, disponibile da Python 3.4 e completamente maturo dal 3.6. Gestisce correttamente i separatori di percorso su Windows e Unix senza doverci pensare, e sostituisce una manciata di chiamate os.path con un accesso leggibile agli attributi.

python

from pathlib import Path

# Build a path relative to the current script — works on Windows and Unix
base_dir = Path(__file__).parent
data_dir = base_dir / 'data'
input_file = data_dir / 'records.csv'

# Check existence before opening
if not input_file.exists():
    raise FileNotFoundError(f"Input file not found: {input_file}")

# Create a directory (including parents) without error if it already exists
output_dir = base_dir / 'output' / 'reports'
output_dir.mkdir(parents=True, exist_ok=True)

# Iterate over all JSON files in a directory
for json_file in data_dir.glob('*.json'):
    print(json_file.name)       # just the filename: 'records.json'
    print(json_file.stem)       # filename without extension: 'records'
    print(json_file.suffix)     # extension: '.json'
    print(json_file.parent)     # parent directory as a Path

# The / operator builds paths — no os.path.join needed
report_path = output_dir / f"report_{input_file.stem}.txt"

L'operatore / qui non è divisione — Path lo sovrascrive per indicare la giunzione di percorsi. Questo si legge in modo naturale ed elimina i problemi di quotatura e separatore che derivano dalla costruzione di percorsi basata su stringhe. Un altro metodo utile: path.read_text(encoding='utf-8') è una scorciatoia per il pattern open/read/close quando si vuole solo il contenuto del file come stringa.

Lettura di File di Grandi Dimensioni Senza Esaurire la Memoria

Quando un file è piccolo — diciamo, sotto qualche megabyte — f.read() o f.readlines() va bene. Quando è un log del server da 500 MB o un'esportazione di dati multi-gigabyte, caricare tutto in memoria è un percorso rapido verso un MemoryError o un kill del processo da parte dell'OS. La soluzione è l'iterazione riga per riga:

python

from pathlib import Path
from collections import Counter

def count_error_levels(log_path: str) -> dict:
    """
    Process a large log file line by line.
    Memory usage stays roughly constant regardless of file size.
    """
    counts = Counter()
    with open(log_path, encoding='utf-8') as f:
        for line in f:
            # Each line is fetched from disk as needed — not loaded all at once
            if ' ERROR ' in line:
                counts['error'] += 1
            elif ' WARN ' in line:
                counts['warning'] += 1
            elif ' INFO ' in line:
                counts['info'] += 1
    return dict(counts)

results = count_error_levels('/var/log/app/server.log')
print(f"Errors: {results.get('error', 0)}, Warnings: {results.get('warning', 0)}")

Il pattern for line in f: funziona perché l'oggetto file di Python implementa il protocollo iteratore — recupera le righe dal disco una alla volta usando un buffer interno, quindi l'utilizzo della memoria è essenzialmente costante indipendentemente dalla dimensione del file. Per file davvero massicci (decine di gigabyte) dove anche l'iterazione riga per riga non è abbastanza veloce, mmap consente di mappare in memoria il file e cercarlo con espressioni regolari senza leggerlo affatto — ma per la maggior parte dei casi d'uso, l'iteratore di righe è tutto ciò di cui si ha bisogno.

Lettura e Scrittura di JSON e CSV

Due formati compaiono costantemente nel lavoro Python reale, ed entrambi hanno moduli stdlib dedicati che gestiscono correttamente citazioni, escape e struttura — non analizzarli con divisioni di stringhe.

python

import json
import csv
from pathlib import Path

# --- JSON ---
# Reading
with open('config/settings.json', encoding='utf-8') as f:
    settings = json.load(f)            # parsed directly from the file object

# Writing (indent=2 gives readable output)
with open('output/results.json', 'w', encoding='utf-8') as f:
    json.dump(results, f, indent=2, ensure_ascii=False)

# --- CSV ---
# Reading
with open('data/customers.csv', encoding='utf-8-sig', newline='') as f:
    reader = csv.DictReader(f)         # each row is a dict keyed by header
    for row in reader:
        process_customer(row['email'], row['plan'])

# Writing
fieldnames = ['id', 'email', 'plan', 'created_at']
with open('output/export.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    for record in records:
        writer.writerow(record)

Alcune cose da notare: passare newline='' quando si aprono file CSV — il modulo csv gestisce i propri terminatori di riga, e lasciare che la modalità newline universale di Python interferisca causa righe vuote duplicate su Windows. Per JSON, ensure_ascii=False consente ai caratteri non-ASCII (lettere accentate, caratteri CJK, ecc.) di scrivere così come sono invece di essere preceduti da escape \uXXXX — output molto più leggibile. Se si lavora con dati JSON o CSV e si vuole ispezionarli o trasformarli visivamente, il Formattatore JSON e il Formattatore CSV su questo sito sono buoni complementi all'approccio del codice.

Gestione degli Errori — Le Tre Eccezioni che Vedrete

Le operazioni sui file falliscono in modi prevedibili. Gestire ogni caso esplicitamente fornisce messaggi di errore effettivamente utili invece di un traceback generico:

python

import json
from pathlib import Path

def load_json_config(path: str) -> dict:
    """
    Load a JSON config file with explicit error handling.
    Returns the parsed config or raises with a clear message.
    """
    config_path = Path(path)

    try:
        with open(config_path, encoding='utf-8') as f:
            return json.load(f)

    except FileNotFoundError:
        raise FileNotFoundError(
            f"Config file not found: {config_path.resolve()}\n"
            f"Create it or set CONFIG_PATH to the correct location."
        )

    except PermissionError:
        raise PermissionError(
            f"No read permission on {config_path.resolve()}\n"
            f"Check file ownership and mode (chmod 644 on Linux)."
        )

    except UnicodeDecodeError as e:
        raise ValueError(
            f"Encoding error reading {config_path}: {e}\n"
            f"Try opening with encoding='utf-8-sig' if the file came from Windows."
        )

    except json.JSONDecodeError as e:
        raise ValueError(
            f"Invalid JSON in {config_path} at line {e.lineno}, col {e.colno}: {e.msg}"
        )

Le quattro eccezioni coprono quasi ogni modalità di fallimento reale: il file non esiste, non si hanno i permessi, la codifica è sbagliata o il contenuto è malformato. Ogni messaggio dice al prossimo sviluppatore (o a te alle 2 di notte) esattamente cosa è andato storto e dove cercare. Catturare una Exception generica e stampare "qualcosa è andato storto" non è una gestione degli errori utile — sposta solo la confusione a valle.

Quando rilanciare vs restituire None: Se un file di configurazione mancante è un errore fatale per lo script, rilanciarla (o sollevare una nuova eccezione) in modo che il chiamante fallisca rumorosamente. Se è opzionale — diciamo, un file di override per utente — catturare FileNotFoundError e restituire None o un dict predefinito va bene. Scegliere un comportamento per funzione e documentarlo.

Conclusione

La versione breve di tutto quanto sopra: usare sempre i blocchi with, passare sempre encoding='utf-8', usare pathlib.Path per la costruzione del percorso, e iterare le righe invece di leggere interi file quando la dimensione è sconosciuta. Queste quattro abitudini eliminano la grande maggioranza dei bug di gestione dei file prima che raggiungano la produzione.

Per ulteriori letture: la sezione del tutorial Python sulla lettura e scrittura dei file copre le basi in modo approfondito. La documentazione di pathlib vale la pena di essere salvata nei preferiti — è una delle parti più utili della stdlib e la maggior parte degli sviluppatori Python la sottoutilizza. La documentazione del modulo csv e la documentazione del modulo json hanno entrambe buoni esempi per i casi limite (delimitatori personalizzati, JSON in streaming, ecc.) che vale la pena leggere se si lavora regolarmente con quei formati.

← All Python articles Browse all categories →