Pythonで正規表現を使いこなす：効率的な文字列操作ガイド

はじめに
1. この記事でわかること
Pythonで正規表現を使う基本的な方法
1. re モジュールの主な関数
2. よく使う正規表現パターンとその用途
郵便番号を取り出す操作（実用例）
1. 実行結果
まとめ

はじめに

正規表現（Regular Expression）は、文字列操作を効率化するための強力なツールです。Pythonでは、標準ライブラリの re モジュールを使って正規表現を簡単に利用できます。

正規表現を使えば、高度な検索や置換が可能です。たとえば、特定のパターンに一致する文字列を抽出したり、一括で複雑な文字列の修正を行ったりすることができます。その汎用性の高さから、今では多くのテキストエディタやプログラミング言語に必須の機能となっています。

本記事では、正規表現の基本的な使い方から、実際のプログラムで活用できる例までを解説します。初心者の方でもこの記事を読めば、正規表現の基礎をマスターできるはずです！

この記事でわかること

Pythonで正規表現を使うための基本的な方法
よく使う正規表現パターンとその用途
正規表現を活用した実用例（例：メールアドレスや電話番号の抽出）

Pythonで正規表現を使う基本的な方法

正規表現を使うためには、まずPythonの標準ライブラリである re モジュールをインポートする必要があります。
re とは “regular expression”（正規表現）の略で、文字列のパターンマッチングを効率的に行うためのライブラリです。

このライブラリは、Pythonをインストールすれば標準で利用可能なので、追加のインストールは不要です。

import re

このモジュールを使うことで、正規表現を活用した文字列の検索、置換、分割などを簡単に行えます。

re モジュールの主な関数

検索に関する関数

関数	説明
match =`re.search(pattern, text)`	最初に一致した箇所を検索します。
match =`re.match(pattern, text)`	文字列の先頭がパターンに一致するか確認します。
`list = re.findall(pattern, text)`	一致する全ての箇所をリストとして返します。
`iterator = re.finditer(pattern, text)`	一致する全ての箇所をイテレータで返します。

置き換え、分割に関する関数

関数	説明
list`= re.split(pattern, text)`	パターンに一致した箇所で文字列を分割し、リストで返します。
string =`re.sub(pattern, repl, text)`	パターンに一致した部分を指定した文字列で置換します。

よく使う正規表現パターンとその用途

正規表現のパターンには様々なものがありますが、ここでは特によく使うものを紹介します。

パターン	説明	例
`\d`	数字	`"123"` に一致
`\w`	英数字またはアンダースコア	`"abc_123"` に一致
`\s`	空白文字	`" "` に一致
`^`	行頭	`"^abc"` は `"abc"` の行頭に一致
`$`	行末	`"abc$"` は `"abc"` の行末に一致
`.*`	任意の文字（0文字以上）	`"abc123"` などに一致

郵便番号を取り出す操作（実用例）

郵便番号データの準備

以下のような内容の addresses.txt ファイルを用意します。

address.txt

123-4567 東京都千代田区
234-5678 大阪府大阪市
345-6789 福岡県福岡市

ファイルを読み込み郵便番号のみを表示

正規表現を使うことで、郵便番号の形式に一致する部分を抽出できます。

address_get.py

import re

# ファイルから郵便番号を正規表現で抽出
with open("address.txt", "r", encoding="utf-8") as file:
    for line in file:
        # 郵便番号の正規表現
        match = re.search(r"\d{3}-\d{4}", line)
        if match:
            print(match.group())