エス技研

WordPress、CakePHP、PHP、baserCMSなどの Web系システムを中心に情報を提供します!


Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説

      2017/04/29

PythonのBeautiful Soupを利用してスクレイピングを実行

 

Beautiful Soupとは?

 
「Beautiful Soup」は、スクレイピングに特化した機能を持っている Pythonのライブラリです。
「Beautiful Soup」は、スクレイピングに特化した機能を持っているため、スクレイピングによる情報の取得が簡単な記述で取得できるようになります。
 
 
Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ」で、Seleniumの記事を書いていますが、Seleniumでブラウザを自動操作しつつ、スクレイピングをしていく処理を構築する上で、BeautifulSoupは強力なツールになってくれます。
Pythonでスクレイピングの処理を構築する場合は、ぜひとも利用したいライブラリですね。
 
 
この記事では、Windows10の環境にセットアップする想定で書いていますので、その点はご了承ください。
 
 

Beautiful Soupをインストール

 
現在の Beautiful Soupの最新バージョンは 4になっていますので、Beautifulsoup4をインストールします。
 
 

Python、pipインストールの確認

 
ですが、BeautifulSoup4を利用するには、Pythonがインストールされている必要があり、Pythonのライブラリをインストールするには、pipというツールが必要です。
 
すでに pipもインストールされていれば問題ないですが、まだインストールをしていない場合は、下記の記事を参考にして、pipのインストールをしてください。
 Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
 
 

BeautifulSoup4のインストール

 
BeautifulSoup4のインストールは、下記のコマンドで実行します。
 
下記コマンドでインストール(pipにパスが通っていない場合はパス付で実行)
 

 

 
 
コマンドを実行し、「Successfully installed beautifulsoup4-4.5.3」と出てきたら、BeautifulSoup4のインストールは正常終了したことになります。
 
 
ツールのインストールだけなので、簡単ですね。
 
BeautifulSoup4の使い方に関しては、また別記事でご紹介します!
 
 

スクレイピングに関連する記事

 
スクレイピングを行うに当たって、「Beautiful Soup」だけを使って実行することはないわけですが、私がスクレイピングを行う際に使ったものとして、Selenium WebDriverというブラウザを自動的に操作するツールがあります。
それらに関連する記事をご紹介しておきます。あわせてご覧ください。
 
 Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
 PythonでUTF-8など日本語(全角文字)を使う方法。コメントにも必要。
 Pythonをコマンドラインで実行。全角文字(日本語)を引数にする場合の対処方法
 Selenium WebDriverでFirefoxをプライベートウィンドウ/Chromeをシークレットモードで起動する方法・言語はpython
 Selenium WebDriver、Pythonをインストールし Chromeの自動操作の環境構築手順のまとめ
 Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
 PythonでMySQLへの接続ライブラリMySQL-pythonの簡単インストール方法
 PythonでURLの有無、存在をチェックするスクリプト

 - プログラミング・Web関連技術

GoogleAdwords

GoogleAdwords

最後までお読みいただきましてありがとうございます。
この記事が参考になったと思いましたらソーシャルメディアで共有していただけると嬉しいです!

Message

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

下記の空欄を埋めてください。 * Time limit is exhausted. Please reload CAPTCHA.

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

※入力いただいたコメントは管理者の承認後に掲載されます。

  関連記事

ブラウザのキャッシュを活用するの対策!広告バナーを消して表示を高速化

あなたのサイトが遅いのはバリューコマースのバナーではないですか?バリューコマースのバナーを外すだけでmod_deflateとmod_expiresを設定するより効果があります!

.gitignoreで無視フォルダの中の特定のファイルを除外「!(否定文)」を使う場合の注意点
.gitignoreで無視フォルダの中の特定のファイルを除外「!(否定文)」を使う場合の注意点

Gitで管理する対象、対象外のファイル、フォルダの指定は .gitignoreに記述する。その基本的な記述の方法に加え、無視対象にしたフォルダの中の特定のファイルを管理対象にする記述方法を解説。

本当に?GMO系ロリポップ・ヘテムルを無料で運用する方法があった!

ロリポップ、ヘテムルを株主優待を利用して実質無料で運営しよう!という解説記事です。株主優待で提供されるサービスの内容を解説し、無料になる仕組みを解説します。

Gitで基本的なデプロイ(push、pullで本番公開)環境を作る手順解説
Gitで基本的なデプロイ(push、pullで本番公開)環境を作る手順解説

開発進行中の環境、公開中の環境にGitを導入する。その基本的な手続きを解説。Gitの導入、ローカルリポジトリを作成。リモートリポジトリを利用し、本番環境にデプロイする手続きを解説。

Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ

ブラウザを自動操作しテストを実行するロボットをselenium WebDriver+Pythonの環境を構築し、動作確認までの手順のまとめ。初心者向けに詳細解説。サンプルソースも。

mod_pagespeedカスタマイズで高速化を詳細解説・Google謹製

mod_pagespeedをデフォルトのまま使っていませんか?mod_pagespeedはデフォルトのままでも速い!でも仕組みを理解し設定し直せばより速くなる!

Gitで「fatal: Authentication failed for 'https://example.com/git_repositories/example.git/'」のエラーが出た場合の対処方法の一つ
Gitで「fatal: Authentication failed for ‘https://example.com/git_repositories/example.git/’」のエラーが出た場合の対処方法の一つ

Gitのリモートリポジトリにアクセスする際、Authentication failedのエラーが。しかし、ID、PASSが間違っているのではなく、リモートリポジトリのURLが間違っている場合もあるので再度確認を。

PythonでURLの有無、存在をチェックするスクリプト

PythonでURLが存在するか否かのチェックスクリプト。ライブラリ「urllib2」を使い、指定のURLにアクセスしそのレスポンスコードを判別するという仕組み。

XSERVERにCakePHP3をインストール。コマンドラインのPHPのバージョンを変更する方法で解決

XSERVERにCakePHP3をインストールするときに問題となるのはサーバーパネルとSSH接続の時とで認識されるPHPのバージョンの違いがあるため。その解消方法を解説する。

コピーコンテンツ対策.htaccessで直リンク禁止しリダイレクトで対応

不正なコピーコンテンツからの直リンクを拒否する.htaccessの設定方法。拒否するサイトを指定、許可するサイトを指定する方法、単純な拒否と画像の差し替えを解説。