Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
2017/04/29
PythonのBeautiful Soupを利用してスクレイピングを実行
Beautiful Soupとは?
「Beautiful Soup」は、スクレイピングに特化した機能を持っている Pythonのライブラリです。
「Beautiful Soup」は、スクレイピングに特化した機能を持っているため、スクレイピングによる情報の取得が簡単な記述で取得できるようになります。
「Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ」で、Seleniumの記事を書いていますが、Seleniumでブラウザを自動操作しつつ、スクレイピングをしていく処理を構築する上で、BeautifulSoupは強力なツールになってくれます。
Pythonでスクレイピングの処理を構築する場合は、ぜひとも利用したいライブラリですね。
この記事では、Windows10の環境にセットアップする想定で書いていますので、その点はご了承ください。
Beautiful Soupをインストール
現在の Beautiful Soupの最新バージョンは 4になっていますので、Beautifulsoup4をインストールします。
Python、pipインストールの確認
ですが、BeautifulSoup4を利用するには、Pythonがインストールされている必要があり、Pythonのライブラリをインストールするには、pipというツールが必要です。
すでに pipもインストールされていれば問題ないですが、まだインストールをしていない場合は、下記の記事を参考にして、pipのインストールをしてください。
Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
BeautifulSoup4のインストール
BeautifulSoup4のインストールは、下記のコマンドで実行します。
下記コマンドでインストール(pipにパスが通っていない場合はパス付で実行)
|
1 |
c:\python27\Scripts\pip install beautifulsoup4 |
|
1 2 3 4 5 6 7 8 |
C:\> c:\python27\Scripts\pip install beautifulsoup4 Collecting beautifulsoup4 Downloading beautifulsoup4-4.5.3-py2-none-any.whl (85kB) 100% |################################| 92kB 430kB/s Installing collected packages: beautifulsoup4 Successfully installed beautifulsoup4-4.5.3 C:\> |
コマンドを実行し、「Successfully installed beautifulsoup4-4.5.3」と出てきたら、BeautifulSoup4のインストールは正常終了したことになります。
ツールのインストールだけなので、簡単ですね。
BeautifulSoup4の使い方に関しては、また別記事でご紹介します!
スクレイピングに関連する記事
スクレイピングを行うに当たって、「Beautiful Soup」だけを使って実行することはないわけですが、私がスクレイピングを行う際に使ったものとして、Selenium WebDriverというブラウザを自動的に操作するツールがあります。
それらに関連する記事をご紹介しておきます。あわせてご覧ください。
Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
PythonでUTF-8など日本語(全角文字)を使う方法。コメントにも必要。
Pythonをコマンドラインで実行。全角文字(日本語)を引数にする場合の対処方法
Selenium WebDriverでFirefoxをプライベートウィンドウ/Chromeをシークレットモードで起動する方法・言語はpython
Selenium WebDriver、Pythonをインストールし Chromeの自動操作の環境構築手順のまとめ
Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
PythonでMySQLへの接続ライブラリMySQL-pythonの簡単インストール方法
PythonでURLの有無、存在をチェックするスクリプト
GoogleAdwords
GoogleAdwords
この記事が参考になったと思いましたらソーシャルメディアで共有していただけると嬉しいです!
関連記事
-
-
mod_pagespeedカスタマイズで高速化を詳細解説・Google謹製
mod_pagespeedをデフォルトのまま使っていませんか?mod_pagespeedはデフォルトのままでも速い!でも仕組みを理解し設定し直せばより速くなる!
-
-
直リンクとは何か?直リンクとディープリンクの違いと著作権問題
直リンクは著作権違反なのか?議論の前にまず「直リンク」の意味を正しく理解しよう。直リンクは他のサイトの画像を読み込む、ディープリンクなど多様な意味がある。
-
-
サイト更新、引越時に.htaccessでリダイレクトする方法解説
サイト更新,引越しなどでサイトのURLが変わった場合のリダイレクトを.htaccessのRewriteEngineを使って処理する方法の解説です。
-
-
PythonでURLの有無、存在をチェックするスクリプト
PythonでURLが存在するか否かのチェックスクリプト。ライブラリ「urllib2」を使い、指定のURLにアクセスしそのレスポンスコードを判別するという仕組み。
-
-
Gitで基本的なデプロイ(push、pullで本番公開)環境を作る手順解説
開発進行中の環境、公開中の環境にGitを導入する。その基本的な手続きを解説。Gitの導入、ローカルリポジトリを作成。リモートリポジトリを利用し、本番環境にデプロイする手続きを解説。
-
-
ブラウザのキャッシュを活用するの対策!広告バナーを消して表示を高速化
あなたのサイトが遅いのはバリューコマースのバナーではないですか?バリューコマースのバナーを外すだけでmod_deflateとmod_expiresを設定するより効果があります!
-
-
XSERVERにCakePHP3をインストール。コマンドラインのPHPのバージョンを変更する方法で解決
XSERVERにCakePHP3をインストールするときに問題となるのはサーバーパネルとSSH接続の時とで認識されるPHPのバージョンの違いがあるため。その解消方法を解説する。
-
-
コピーコンテンツ・直リンクの3つの対策Google通報などのまとめ
コピーコンテンツを発見したときにやること!Googleに通報、画像の直リンクを禁止、RSSの全文配信を停止。この対策をしないとあなたのサイトの評価も下がるかも!
-
-
直リンク禁止の.htaccessを超分かりやすく解説。日本語じゃなくてPHPで説明
直リンクを禁止する.htaccessの記述内容を日本語ではなくPHPで解説!私自身もこの方法ですっかり理解できました。.htaccessって簡単!って思えますよ。
-
-
本当に?GMO系ロリポップ・ヘテムルを無料で運用する方法があった!
ロリポップ、ヘテムルを株主優待を利用して実質無料で運営しよう!という解説記事です。株主優待で提供されるサービスの内容を解説し、無料になる仕組みを解説します。