Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
2017/04/29
PythonのBeautiful Soupを利用してスクレイピングを実行
Beautiful Soupとは?
「Beautiful Soup」は、スクレイピングに特化した機能を持っている Pythonのライブラリです。
「Beautiful Soup」は、スクレイピングに特化した機能を持っているため、スクレイピングによる情報の取得が簡単な記述で取得できるようになります。
「Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ」で、Seleniumの記事を書いていますが、Seleniumでブラウザを自動操作しつつ、スクレイピングをしていく処理を構築する上で、BeautifulSoupは強力なツールになってくれます。
Pythonでスクレイピングの処理を構築する場合は、ぜひとも利用したいライブラリですね。
この記事では、Windows10の環境にセットアップする想定で書いていますので、その点はご了承ください。
Beautiful Soupをインストール
現在の Beautiful Soupの最新バージョンは 4になっていますので、Beautifulsoup4をインストールします。
Python、pipインストールの確認
ですが、BeautifulSoup4を利用するには、Pythonがインストールされている必要があり、Pythonのライブラリをインストールするには、pipというツールが必要です。
すでに pipもインストールされていれば問題ないですが、まだインストールをしていない場合は、下記の記事を参考にして、pipのインストールをしてください。
Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
BeautifulSoup4のインストール
BeautifulSoup4のインストールは、下記のコマンドで実行します。
下記コマンドでインストール(pipにパスが通っていない場合はパス付で実行)
|
1 |
c:\python27\Scripts\pip install beautifulsoup4 |
|
1 2 3 4 5 6 7 8 |
C:\> c:\python27\Scripts\pip install beautifulsoup4 Collecting beautifulsoup4 Downloading beautifulsoup4-4.5.3-py2-none-any.whl (85kB) 100% |################################| 92kB 430kB/s Installing collected packages: beautifulsoup4 Successfully installed beautifulsoup4-4.5.3 C:\> |
コマンドを実行し、「Successfully installed beautifulsoup4-4.5.3」と出てきたら、BeautifulSoup4のインストールは正常終了したことになります。
ツールのインストールだけなので、簡単ですね。
BeautifulSoup4の使い方に関しては、また別記事でご紹介します!
スクレイピングに関連する記事
スクレイピングを行うに当たって、「Beautiful Soup」だけを使って実行することはないわけですが、私がスクレイピングを行う際に使ったものとして、Selenium WebDriverというブラウザを自動的に操作するツールがあります。
それらに関連する記事をご紹介しておきます。あわせてご覧ください。
Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
PythonでUTF-8など日本語(全角文字)を使う方法。コメントにも必要。
Pythonをコマンドラインで実行。全角文字(日本語)を引数にする場合の対処方法
Selenium WebDriverでFirefoxをプライベートウィンドウ/Chromeをシークレットモードで起動する方法・言語はpython
Selenium WebDriver、Pythonをインストールし Chromeの自動操作の環境構築手順のまとめ
Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
PythonでMySQLへの接続ライブラリMySQL-pythonの簡単インストール方法
PythonでURLの有無、存在をチェックするスクリプト
GoogleAdwords
GoogleAdwords
この記事が参考になったと思いましたらソーシャルメディアで共有していただけると嬉しいです!
関連記事
-
-
Pythonをコマンドラインで実行。全角文字(日本語)を引数にする場合の対処方法
Pythonをコマンドラインで実行する際、引数を付与して実行する方法の解説。その時問題となる日本語(全角文字)を利用する方法を解説。Windows環境での解説。
-
-
直リンクとは何か?直リンクとディープリンクの違いと著作権問題
直リンクは著作権違反なのか?議論の前にまず「直リンク」の意味を正しく理解しよう。直リンクは他のサイトの画像を読み込む、ディープリンクなど多様な意味がある。
-
-
エックスサーバーで独自SSLは永久無料で取り放題。利用方法と理由を解説!
エックスサーバーでは独自SSLが無料でいくつでも設置できるように!しかも、国、都道府県などの数項目の入力と数クリックだけという超簡単!SSL化しない理由がない!
-
-
.htaccessのmod_expiresでブラウザキャッシュで高速化でSEO対策!
Page Speed Insightsの指摘事項のファイルのブラウザキャッシュの設定方法。解説もしてるけど、.htaccessにコピペするだけの簡単設置で効果抜群!SEOにも威力を発揮!
-
-
X Serverへの引越しの注意点まとめ。ロリポップとの違いと対処方法 6事例
ロリポップからX Serverに引越し。ロリポップとX Serverの違いに注目することでX Serverの設定方法を明確にします。またX Serverならではの設定ポイントなども解説。
-
-
日本語は2バイト文字?3バイト文字?
日本語は2バイトという理解でしたが、UTF-8では事情が違います。その説明です。
-
-
ブラウザのキャッシュを活用するの対策!広告バナーを消して表示を高速化
あなたのサイトが遅いのはバリューコマースのバナーではないですか?バリューコマースのバナーを外すだけでmod_deflateとmod_expiresを設定するより効果があります!
-
-
Git管理のソースを元に新しく構築する環境に反映させる手順
Gitで管理しているソースを使って環境を構築する方法を解説。CakePHPを使う想定で、環境を構築したのちpullして、重複ファイルを削除して、改めてpullすれば出来上がる。
-
-
借りてはいけないレンタルサーバ実例4社・アルファメール・WEBアリーナ
餅は餅屋。サーバはサーバ屋が提供するサービスを利用するべきという記事で、具体例 4サービスを例にこんなサーバはNGと紹介しています。
-
-
SyntaxHighlighterを導入してソースコードを見やすくしてみました
PHP、HTMLなどのソースコードをブログで紹介するとき、SyntaxHighlighterを利用することで見やすく提供することが出来ます。