Webスクレイピングと文字コードとPython3

Python

概要

Webスクレイピングをしていて文字コードについてまとめないといけないと思いまして。

Webサイトの文字コード

Webサイトの文字コードはHTMLページのmetaタグに記載されている。例えば

のように。

charsetの値はJISコードであれば「ISO-2022-JP」、シフトJISコードであれば「Shift-JIS」、EUCコードであれば「EUC-JP」、UTF-8形式のユニコードであれば「utf-8」、UTF-16形式のユニコードであれば「utf-16」。

Python3での文字コードの取り扱い

Webサイトの文字コードがわかったのでpython3で次のようにutf-8として扱う。

BeautifulSoupなどで取り込んだtextデータ、この例ではcontentとします、に対し

ファイルへの保存

エンコーディングを指定する必要がある。

コメント

タイトルとURLをコピーしました