Python 파일 처리 — 올바른 방법으로 파일 읽기 및 쓰기

Python의 내장 파일 처리는 언어의 진정한 강점 중 하나입니다 — 기본 읽기/쓰기 작업에 임포트가 필요 없으며, API가 오후에 배울 수 있을 만큼 깔끔합니다. 하지만 튜토리얼 버전과 실제로 배포할 버전 사이에는 실제 격차가 있습니다. 튜토리얼 버전은 파일을 열고, 읽고, 닫습니다. 프로덕션 버전은 데이터를 조용히 손상시키는 인코딩 불일치, macOS에서는 작동하지만 Windows에서는 폭발하는 경로, 2GB 파일에서 read()를 호출하면 메모리를 조용히 모두 먹어치우는 로그 파일을 다룹니다. 이 글은 행복한 경로뿐만 아니라 유지되는 패턴을 다룹니다.

with 문 — 항상 사용하세요

Python의 모든 파일 처리 예제는 컨텍스트 매니저를 사용해야 합니다 — 읽기 중간에 예외가 발생해도 파일이 닫히도록 보장하는 with 블록. 컨텍스트 매니저는 with 블록에 진입하고 종료할 때 무슨 일이 일어나는지 정의하는 객체입니다; 파일의 경우, 종료는 close()가 자동으로 호출됨을 의미합니다. 실제로 왜 중요한지:

python

# ❌ Manual close — works until it doesn't
f = open('app.log')
data = f.read()   # if this raises an exception...
f.close()         # ...this line never runs. File handle leaks.

# ✅ Context manager — close() is guaranteed
with open('app.log') as f:
    data = f.read()
# file is closed here, no matter what happened inside the block

장기 실행 서버에서 이것은 학문적인 것이 아닙니다 — 파일 핸들 누수는 결국 OSError: [Errno 24] Too many open files를 일으킵니다. with 문은 아무것도 소비하지 않으며 해당 버그 클래스를 완전히 방지합니다. 어디서나 사용하세요.

파일 읽기 — 네 가지 방법, 각각에 맞는 도구

Python은 파일 객체에 여러 메서드를 제공하며, 올바른 것을 선택하는 것이 대부분의 튜토리얼이 인정하는 것보다 더 중요합니다:

f.read() — 전체 파일을 단일 문자열로 읽습니다. 소규모 설정 파일에는 괜찮지만, 대형 파일에는 위험합니다.
f.readline() — 한 번에 한 줄씩 읽고, 내부 포인터를 전진시킵니다. 반복에 대한 수동 제어가 필요할 때 유용합니다.
f.readlines() — 모든 줄을 리스트로 읽습니다. 편리하지만 여전히 전체 파일을 메모리에 로드합니다.
for line in f: — 이터레이터 프로토콜. 전체 파일을 로드하지 않고 한 번에 한 줄씩 읽습니다. 기본적으로 이것을 사용하세요.

다음은 현실적인 예입니다: .env 스타일 설정 파일을 읽어 딕셔너리로 변환합니다. 이것은 실제로 작성하는 것이지, 억지로 만든 "hello.txt 읽기" 데모가 아닙니다:

python

from pathlib import Path

def load_config(path: str) -> dict:
    """Read a key=value config file, ignoring comments and blank lines."""
    config = {}
    with open(path, encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            if not line or line.startswith('#'):
                continue
            if '=' not in line:
                continue
            key, _, value = line.partition('=')
            config[key.strip()] = value.strip()
    return config

# Usage
settings = load_config('config/app.conf')
db_host = settings.get('DB_HOST', 'localhost')

.strip() 습관: 줄을 읽을 때, 마지막 줄을 제외한 모든 줄에는 후행 \n(Windows에서는 \r\n)이 포함됩니다. 둘 다 제거하려면 line.strip()을 호출하세요. 선행 공백은 유지하면서 줄 바꿈만 제거하려면 line.rstrip('\n')을 사용하세요.

쓰기 및 추가 — 어떤 모드가 데이터를 삭제하는지 알기

open()의 두 번째 인수는 모드입니다. 두 가지 모드가 반복적으로 사람들을 걸려들게 합니다:

'w' — 쓰기 모드. 쓰기용 파일을 엽니다. 파일이 이미 존재하면, 단일 문자를 쓰기 전에 즉시 0바이트로 잘립니다 — 잘못된 경로를 열면 조용한 데이터 삭제입니다.
'a' — 추가 모드. 파일을 열고 쓰기 포인터를 끝으로 이동합니다. 기존 콘텐츠는 절대 건드리지 않습니다. 새로운 쓰기는 이미 있는 것 뒤에 붙습니다.

추가 모드의 좋은 사용 사례는 타임스탬프가 있는 구조화된 로그 파일을 작성하는 것입니다. 다음은 스크립트와 소규모 서비스 모두에 유용한 패턴입니다:

python

import datetime

LOG_FILE = 'logs/pipeline.log'

def log_event(level: str, message: str) -> None:
    timestamp = datetime.datetime.utcnow().isoformat() + 'Z'
    line = f"[{timestamp}] {level.upper()}: {message}\n"
    with open(LOG_FILE, 'a', encoding='utf-8') as f:
        f.write(line)

log_event('info', 'Pipeline started')
log_event('warning', 'Retrying connection to database')
log_event('error', 'Failed to parse row 4821 — skipping')

경고: open(path, 'w')는 파일이 존재하지 않으면 생성합니다 — 편리하지만 — 존재하면 조용히 삭제합니다. 오타가 난 경로는 오류 메시지 없이 프로덕션 파일을 지울 수 있습니다. 파일을 덮어써야 하는지 확실하지 않다면, Path(path).exists()로 먼저 확인하거나 덮어쓰는 대신 FileExistsError를 발생시키는 'x' 모드를 사용하세요.

인코딩 — 결국 모든 사람을 물어뜯는 버그

이것은 Python 파일 처리에서 조용한 데이터 손상의 가장 일반적인 원인입니다. Python 3의 인코딩 없이 open()을 호출할 때의 기본 인코딩은 locale.getpreferredencoding()에 의해 결정됩니다 — Windows에서는 일반적으로 cp1252이고, Linux/macOS에서는 보통 UTF-8입니다. 즉, Mac에서 완벽하게 작동하는 코드가 파일에 ASCII 이외의 문자가 포함된 경우 Windows 서버에서 조용히 손상되거나 충돌할 수 있습니다. 수정 방법은 추가 인수 하나입니다:

python

# ❌ Platform-dependent — works on Linux, corrupts on Windows
with open('customers.csv') as f:
    data = f.read()

# ✅ Explicit UTF-8 — same behavior on every platform
with open('customers.csv', encoding='utf-8') as f:
    data = f.read()

# For files exported from Excel on Windows — may have a BOM (byte order mark)
# utf-8-sig strips the BOM automatically on read
with open('export.csv', encoding='utf-8-sig') as f:
    data = f.read()

BOM 문제는 Microsoft Excel에서 내보낸 CSV 파일에서 특히 일반적입니다 — 파일은 잘못된 인코딩으로 읽으면 ï»¿로 나타나거나 첫 번째 열 헤더가 name 대신 name처럼 보이게 하는 숨겨진 \ufeff 문자로 시작합니다. encoding='utf-8-sig'를 사용하면 이것을 투명하게 처리합니다. 인코딩 이름의 전체 목록은 Python codecs 문서를 확인하세요.

경험 법칙: 모든 open() 호출에 항상 encoding='utf-8'(Excel 내보내기는 'utf-8-sig')를 전달하세요. 습관으로 만들세요 — 아무것도 소비하지 않으며 환경별 버그의 전체 카테고리를 제거합니다.

경로 다루기 — pathlib 사용

Python에서 파일 경로를 만드는 예전 방법은 문자열 연결이나 os.path.join()이었습니다. 현대적인 방법은 Python 3.4부터 사용 가능하고 3.6부터 완전히 성숙한 pathlib.Path입니다. Windows와 Unix에서 경로 구분자를 올바르게 처리하며 여러 os.path 호출을 읽기 쉬운 속성 접근으로 대체합니다.

python

from pathlib import Path

# Build a path relative to the current script — works on Windows and Unix
base_dir = Path(__file__).parent
data_dir = base_dir / 'data'
input_file = data_dir / 'records.csv'

# Check existence before opening
if not input_file.exists():
    raise FileNotFoundError(f"Input file not found: {input_file}")

# Create a directory (including parents) without error if it already exists
output_dir = base_dir / 'output' / 'reports'
output_dir.mkdir(parents=True, exist_ok=True)

# Iterate over all JSON files in a directory
for json_file in data_dir.glob('*.json'):
    print(json_file.name)       # just the filename: 'records.json'
    print(json_file.stem)       # filename without extension: 'records'
    print(json_file.suffix)     # extension: '.json'
    print(json_file.parent)     # parent directory as a Path

# The / operator builds paths — no os.path.join needed
report_path = output_dir / f"report_{input_file.stem}.txt"

여기서 / 연산자는 나눗셈이 아닙니다 — Path가 경로 결합을 의미하도록 재정의했습니다. 이것은 자연스럽게 읽히며 문자열 기반 경로 구축에서 오는 인용 및 구분자 문제를 제거합니다. 하나 더 유용한 메서드: path.read_text(encoding='utf-8')는 단순히 파일 내용을 문자열로 원할 때 open/read/close 패턴의 단축키입니다.

메모리 폭발 없이 대형 파일 읽기

파일이 작을 때 — 몇 메가바이트 이하 — f.read()나 f.readlines()는 괜찮습니다. 500MB 서버 로그나 수 기가바이트 데이터 내보내기일 때, 전체를 메모리에 로드하는 것은 MemoryError나 OS의 프로세스 종료로 가는 빠른 경로입니다. 해결책은 줄 단위 반복입니다:

python

from pathlib import Path
from collections import Counter

def count_error_levels(log_path: str) -> dict:
    """
    Process a large log file line by line.
    Memory usage stays roughly constant regardless of file size.
    """
    counts = Counter()
    with open(log_path, encoding='utf-8') as f:
        for line in f:
            # Each line is fetched from disk as needed — not loaded all at once
            if ' ERROR ' in line:
                counts['error'] += 1
            elif ' WARN ' in line:
                counts['warning'] += 1
            elif ' INFO ' in line:
                counts['info'] += 1
    return dict(counts)

results = count_error_levels('/var/log/app/server.log')
print(f"Errors: {results.get('error', 0)}, Warnings: {results.get('warning', 0)}")

for line in f: 패턴이 작동하는 이유는 Python의 파일 객체가 이터레이터 프로토콜을 구현하기 때문입니다 — 내부 버퍼를 사용하여 한 번에 한 줄씩 디스크에서 줄을 가져오므로, 메모리 사용량은 파일 크기에 관계없이 본질적으로 일정합니다. 줄 단위 반복도 충분히 빠르지 않은 수십 기가바이트 파일의 경우, mmap을 사용하면 파일을 전혀 읽지 않고 메모리에 매핑하고 정규 표현식으로 검색할 수 있습니다 — 하지만 대부분의 사용 사례에서는 줄 이터레이터가 필요한 전부입니다.

JSON 및 CSV 읽기 및 쓰기

두 형식이 실제 Python 작업에서 항상 나타나며, 둘 다 인용, 이스케이프, 구조를 올바르게 처리하는 전용 stdlib 모듈이 있습니다 — 문자열 분할로 파싱하지 마세요.

python

import json
import csv
from pathlib import Path

# --- JSON ---
# Reading
with open('config/settings.json', encoding='utf-8') as f:
    settings = json.load(f)            # parsed directly from the file object

# Writing (indent=2 gives readable output)
with open('output/results.json', 'w', encoding='utf-8') as f:
    json.dump(results, f, indent=2, ensure_ascii=False)

# --- CSV ---
# Reading
with open('data/customers.csv', encoding='utf-8-sig', newline='') as f:
    reader = csv.DictReader(f)         # each row is a dict keyed by header
    for row in reader:
        process_customer(row['email'], row['plan'])

# Writing
fieldnames = ['id', 'email', 'plan', 'created_at']
with open('output/export.csv', 'w', encoding='utf-8', newline='') as f:
    writer = csv.DictWriter(f, fieldnames=fieldnames)
    writer.writeheader()
    for record in records:
        writer.writerow(record)

몇 가지 주목할 만한 사항: CSV 파일을 열 때 newline=''을 전달하세요 — csv 모듈은 자체 줄 끝을 처리하며, Python의 유니버설 개행 모드가 간섭하도록 허용하면 Windows에서 중복 빈 행이 발생합니다. JSON의 경우, ensure_ascii=False는 비 ASCII 문자(악센트 문자, CJK 문자 등)가 \uXXXX 시퀀스로 이스케이프되는 대신 있는 그대로 쓰이도록 합니다 — 훨씬 더 읽기 쉬운 출력. JSON이나 CSV 데이터를 다루며 시각적으로 검사하거나 변환하고 싶다면, 이 사이트의 JSON 포맷터와 CSV 포맷터가 코드 접근 방식에 좋은 보완이 됩니다.

오류 처리 — 보게 될 세 가지 예외

파일 작업은 예측 가능한 방식으로 실패합니다. 각 경우를 명시적으로 처리하면 일반적인 트레이스백 대신 실제로 유용한 오류 메시지를 얻을 수 있습니다:

python

import json
from pathlib import Path

def load_json_config(path: str) -> dict:
    """
    Load a JSON config file with explicit error handling.
    Returns the parsed config or raises with a clear message.
    """
    config_path = Path(path)

    try:
        with open(config_path, encoding='utf-8') as f:
            return json.load(f)

    except FileNotFoundError:
        raise FileNotFoundError(
            f"Config file not found: {config_path.resolve()}\n"
            f"Create it or set CONFIG_PATH to the correct location."
        )

    except PermissionError:
        raise PermissionError(
            f"No read permission on {config_path.resolve()}\n"
            f"Check file ownership and mode (chmod 644 on Linux)."
        )

    except UnicodeDecodeError as e:
        raise ValueError(
            f"Encoding error reading {config_path}: {e}\n"
            f"Try opening with encoding='utf-8-sig' if the file came from Windows."
        )

    except json.JSONDecodeError as e:
        raise ValueError(
            f"Invalid JSON in {config_path} at line {e.lineno}, col {e.colno}: {e.msg}"
        )

네 가지 예외가 거의 모든 실제 실패 모드를 다룹니다: 파일이 존재하지 않음, 권한이 없음, 인코딩이 잘못됨, 또는 콘텐츠가 잘못됨. 각 메시지는 다음 개발자(또는 새벽 2시의 당신)에게 무엇이 잘못되었고 어디를 봐야 하는지 정확히 알려줍니다. 빈 Exception을 잡아 "뭔가 잘못됐습니다"라고 출력하는 것은 유용한 오류 처리가 아닙니다 — 혼란을 하류로 이동시킬 뿐입니다.

다시 발생시킬 때 vs None 반환할 때: 누락된 설정 파일이 스크립트의 치명적인 오류인 경우, 다시 발생시키세요(또는 새 예외를 발생시켜) 호출자가 크게 실패하도록 합니다. 선택적인 경우 — 예를 들어, 사용자별 재정의 파일 — FileNotFoundError를 잡아 None이나 기본 딕셔너리를 반환하는 것이 괜찮습니다. 함수당 하나의 동작을 선택하고 문서화하세요.

마무리

위의 모든 것의 짧은 버전: 항상 with 블록을 사용하고, 항상 encoding='utf-8'을 전달하고, 경로 구성에 pathlib.Path를 사용하고, 크기를 알 수 없을 때 전체 파일을 읽는 대신 줄을 반복하세요. 이 네 가지 습관이 프로덕션에 도달하기 전에 파일 처리 버그의 대부분을 제거합니다.

더 깊은 읽기를 위해: 파일 읽기 및 쓰기에 관한 Python 튜토리얼 섹션은 기본을 철저히 다룹니다. pathlib 문서는 북마크할 가치가 있습니다 — stdlib의 가장 유용한 부분 중 하나이며 대부분의 Python 개발자가 충분히 활용하지 못합니다. csv 모듈 문서와 json 모듈 문서는 모두 해당 형식을 정기적으로 다루는 경우 읽어볼 가치 있는 엣지 케이스(사용자 정의 구분자, 스트리밍 JSON 등)에 대한 좋은 예제를 가지고 있습니다.

← All Python articles Browse all categories →