はじめに
正規表現(Regular Expression)は、文字列操作を効率化するための強力なツールです。Pythonでは、標準ライブラリの re
モジュールを使って正規表現を簡単に利用できます。
正規表現を使えば、高度な検索や置換が可能です。たとえば、特定のパターンに一致する文字列を抽出したり、一括で複雑な文字列の修正を行ったりすることができます。その汎用性の高さから、今では多くのテキストエディタやプログラミング言語に必須の機能となっています。
本記事では、正規表現の基本的な使い方から、実際のプログラムで活用できる例までを解説します。初心者の方でもこの記事を読めば、正規表現の基礎をマスターできるはずです!
この記事でわかること
-
Pythonで正規表現を使うための基本的な方法
-
よく使う正規表現パターンとその用途
-
正規表現を活用した実用例(例:メールアドレスや電話番号の抽出)
Pythonで正規表現を使う基本的な方法
正規表現を使うためには、まずPythonの標準ライブラリである re
モジュールをインポートする必要があります。
re
とは “regular expression”(正規表現)の略で、文字列のパターンマッチングを効率的に行うためのライブラリです。
このライブラリは、Pythonをインストールすれば標準で利用可能なので、追加のインストールは不要です。
re モジュールの主な関数
関数 | 説明 |
---|---|
match =re.search(pattern, text) |
最初に一致した箇所を検索します。 |
match =re.match(pattern, text) |
文字列の先頭がパターンに一致するか確認します。 |
list = re.findall(pattern, text) |
一致する全ての箇所をリストとして返します。 |
iterator = re.finditer(pattern, text) |
一致する全ての箇所をイテレータで返します。 |
関数 | 説明 |
---|---|
list= re.split(pattern, text) |
パターンに一致した箇所で文字列を分割し、リストで返します。 |
string =re.sub(pattern, repl, text) |
パターンに一致した部分を指定した文字列で置換します。 |
よく使う正規表現パターンとその用途
正規表現のパターンには様々なものがありますが、ここでは特によく使うものを紹介します。
パターン | 説明 | 例 |
---|---|---|
\d |
数字 | "123" に一致 |
\w |
英数字またはアンダースコア | "abc_123" に一致 |
\s |
空白文字 | " " に一致 |
^ |
行頭 | "^abc" は "abc" の行頭に一致 |
$ |
行末 | "abc$" は "abc" の行末に一致 |
.* |
任意の文字(0文字以上) | "abc123" などに一致 |
郵便番号を取り出す操作(実用例)
郵便番号データの準備
以下のような内容の addresses.txt
ファイルを用意します。
123-4567 東京都千代田区 234-5678 大阪府大阪市 345-6789 福岡県福岡市
ファイルを読み込み郵便番号のみを表示
正規表現を使うことで、郵便番号の形式に一致する部分を抽出できます。
import re # ファイルから郵便番号を正規表現で抽出 with open("address.txt", "r", encoding="utf-8") as file: for line in file: # 郵便番号の正規表現 match = re.search(r"\d{3}-\d{4}", line) if match: print(match.group())
実行結果
txtファイル内の郵便番号を正確に抽出できました。
このような正規表現は郵便番号以外にも応用できます。例えば、以下のような電話番号形式を抽出することも可能です。
正規表現を一度マスターすれば、データ整理や検索の幅が大きく広がります。
まとめ
Pythonの正規表現は、テキストデータの検索や置換、フォーマットに非常に便利です。本記事では、基本的な使い方から実用例までを紹介しましたが、慣れるには実際に手を動かして試してみることが重要です。
さらに正規表現の知識はPythonにとどまらず、他のプログラミング言語やツールでも活用可能です。一度習得すれば、多くの場面で役立つスキルになります。
今後、さらに複雑なデータ操作が必要になった際にも、正規表現を活用することで効率的に問題を解決できるでしょう。ぜひ、この記事で学んだ内容を活用してみてください!
コメント