Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
2017/04/29
PythonのBeautiful Soupを利用してスクレイピングを実行
Beautiful Soupとは?
「Beautiful Soup」は、スクレイピングに特化した機能を持っている Pythonのライブラリです。
「Beautiful Soup」は、スクレイピングに特化した機能を持っているため、スクレイピングによる情報の取得が簡単な記述で取得できるようになります。
「Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ」で、Seleniumの記事を書いていますが、Seleniumでブラウザを自動操作しつつ、スクレイピングをしていく処理を構築する上で、BeautifulSoupは強力なツールになってくれます。
Pythonでスクレイピングの処理を構築する場合は、ぜひとも利用したいライブラリですね。
この記事では、Windows10の環境にセットアップする想定で書いていますので、その点はご了承ください。
Beautiful Soupをインストール
現在の Beautiful Soupの最新バージョンは 4になっていますので、Beautifulsoup4をインストールします。
Python、pipインストールの確認
ですが、BeautifulSoup4を利用するには、Pythonがインストールされている必要があり、Pythonのライブラリをインストールするには、pipというツールが必要です。
すでに pipもインストールされていれば問題ないですが、まだインストールをしていない場合は、下記の記事を参考にして、pipのインストールをしてください。
Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
BeautifulSoup4のインストール
BeautifulSoup4のインストールは、下記のコマンドで実行します。
下記コマンドでインストール(pipにパスが通っていない場合はパス付で実行)
|
1 |
c:\python27\Scripts\pip install beautifulsoup4 |
|
1 2 3 4 5 6 7 8 |
C:\> c:\python27\Scripts\pip install beautifulsoup4 Collecting beautifulsoup4 Downloading beautifulsoup4-4.5.3-py2-none-any.whl (85kB) 100% |################################| 92kB 430kB/s Installing collected packages: beautifulsoup4 Successfully installed beautifulsoup4-4.5.3 C:\> |
コマンドを実行し、「Successfully installed beautifulsoup4-4.5.3」と出てきたら、BeautifulSoup4のインストールは正常終了したことになります。
ツールのインストールだけなので、簡単ですね。
BeautifulSoup4の使い方に関しては、また別記事でご紹介します!
スクレイピングに関連する記事
スクレイピングを行うに当たって、「Beautiful Soup」だけを使って実行することはないわけですが、私がスクレイピングを行う際に使ったものとして、Selenium WebDriverというブラウザを自動的に操作するツールがあります。
それらに関連する記事をご紹介しておきます。あわせてご覧ください。
Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
PythonでUTF-8など日本語(全角文字)を使う方法。コメントにも必要。
Pythonをコマンドラインで実行。全角文字(日本語)を引数にする場合の対処方法
Selenium WebDriverでFirefoxをプライベートウィンドウ/Chromeをシークレットモードで起動する方法・言語はpython
Selenium WebDriver、Pythonをインストールし Chromeの自動操作の環境構築手順のまとめ
Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
PythonでMySQLへの接続ライブラリMySQL-pythonの簡単インストール方法
PythonでURLの有無、存在をチェックするスクリプト
GoogleAdwords
GoogleAdwords
この記事が参考になったと思いましたらソーシャルメディアで共有していただけると嬉しいです!
関連記事
-
-
Apacheの起動しているかの確認方法と起動、再起動、終了のコマンド
Apacheが起動しているかを確認する方法の解説に加え、Apacheの起動、停止、再起動のコマンドを解説。再起動のコマンドには restart、condrestart、reload、gracefulがあり、違いを解説。
-
-
FTPでダウンロード時にファイルが重複するため上書きしますか?と表示される問題
FTPでファイルをダウンロードする際に「ファイルが重複しています。上書きしますか?」というメッセージが出る場合がありますが、これの原因と対策、解決策の記事です。
-
-
日本語は2バイト文字?3バイト文字?
日本語は2バイトという理解でしたが、UTF-8では事情が違います。その説明です。
-
-
Selenium WebDriver、Pythonをインストールし Chromeの自動操作の環境構築手順のまとめ
Selenium WebDriverを使ってChromeを自動操作する環境を構築する手順のまとめ。使用するPythonのインストールから、サンプルスクリプトの動作確認までを詳細解説。
-
-
ブラウザのキャッシュを活用するの対策!広告バナーを消して表示を高速化
あなたのサイトが遅いのはバリューコマースのバナーではないですか?バリューコマースのバナーを外すだけでmod_deflateとmod_expiresを設定するより効果があります!
-
-
.gitignoreで無視フォルダの中の特定のファイルを除外「!(否定文)」を使う場合の注意点
Gitで管理する対象、対象外のファイル、フォルダの指定は .gitignoreに記述する。その基本的な記述の方法に加え、無視対象にしたフォルダの中の特定のファイルを管理対象にする記述方法を解説。
-
-
さくらサーバのmb_send_mailでメール送信時にmalformed header from script ‘xxx.php’: Bad header: xxxのエラーが
さくらインターネットのレンタルサーバからPHPのmb_send_mail()関数を利用してメールを送信するとInternal Server Errorが発生。その原因は、メールアドレスが登録されていないこと。
-
-
So-netのレンタルサーバHSはヤバイ・借りてはいけないレンタルサーバリスト
餅は餅屋。サーバはサーバ屋が提供するサービスを利用するべきという記事で、単独でSo-netを紹介。OEMでサービスの提供を受けているだけなので何とも残念すぎる内容。
-
-
WordPress、Webサイトの表示高速化!画像を軽くする基本的な考え方
画面表示の高速化には画像のファイル容量を小さくする方法があります。ツールを使わなくても小さくするための基本的な考え方を解説します。
-
-
PythonでMySQLへの接続ライブラリMySQL-pythonの簡単インストール方法
PythonはMySQLに接続するライブラリは別途インストールが必要。なのでMySQL-pythonライブラリのインストール方法とサンプルスクリプトで動作検証までを解説。