Python3とBeautifulSoup4を使って、HTMLを解析する準備をした時のメモです。
インストール方法と簡単な使い方を調べました。
環境
環境としては、以下でWSL上のUbuntu 20.04で動かします。
Pythonはubuntuに最初から入っているものを使いました。
- Windows 10 home
- WSL: Ubuntu 20.04
- Python 3.8.5
- pip 20.0.2
インストール
pipを使ってインストールします。
使ってみる
requests
を使って取得したページの内容を解析し、H2タグを抽出してみます。
以下のような結果になります。
スクレイピングをする場合、一度ダウンロードしたHTMLに対して解析を行いたい場合があります。
例えば、以下のようにhtml
をダウンロードしてきた場合を考えます。
上記のコマンドでとってきた、ローカルのファイルnnnamani.com.html
をBeautifulSoupに渡すには、以下のようになります。
open
で開いたファイルを渡すだけです。
実行結果は以下のようになります。
まとめ
BeautifulSoup4を入れて動かしてみました。
細かい使い方はこれからですが、なんとなくの使い方がわかりました。
DOMを取得しての処理も使いやすい印象なので、これからいろいろ試してみたいです。