Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
2017/04/29
PythonのBeautiful Soupを利用してスクレイピングを実行
Beautiful Soupとは?
「Beautiful Soup」は、スクレイピングに特化した機能を持っている Pythonのライブラリです。
「Beautiful Soup」は、スクレイピングに特化した機能を持っているため、スクレイピングによる情報の取得が簡単な記述で取得できるようになります。
「Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ」で、Seleniumの記事を書いていますが、Seleniumでブラウザを自動操作しつつ、スクレイピングをしていく処理を構築する上で、BeautifulSoupは強力なツールになってくれます。
Pythonでスクレイピングの処理を構築する場合は、ぜひとも利用したいライブラリですね。
この記事では、Windows10の環境にセットアップする想定で書いていますので、その点はご了承ください。
Beautiful Soupをインストール
現在の Beautiful Soupの最新バージョンは 4になっていますので、Beautifulsoup4をインストールします。
Python、pipインストールの確認
ですが、BeautifulSoup4を利用するには、Pythonがインストールされている必要があり、Pythonのライブラリをインストールするには、pipというツールが必要です。
すでに pipもインストールされていれば問題ないですが、まだインストールをしていない場合は、下記の記事を参考にして、pipのインストールをしてください。
Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
BeautifulSoup4のインストール
BeautifulSoup4のインストールは、下記のコマンドで実行します。
下記コマンドでインストール(pipにパスが通っていない場合はパス付で実行)
1 |
c:\python27\Scripts\pip install beautifulsoup4 |
1 2 3 4 5 6 7 8 |
C:\> c:\python27\Scripts\pip install beautifulsoup4 Collecting beautifulsoup4 Downloading beautifulsoup4-4.5.3-py2-none-any.whl (85kB) 100% |################################| 92kB 430kB/s Installing collected packages: beautifulsoup4 Successfully installed beautifulsoup4-4.5.3 C:\> |
コマンドを実行し、「Successfully installed beautifulsoup4-4.5.3」と出てきたら、BeautifulSoup4のインストールは正常終了したことになります。
ツールのインストールだけなので、簡単ですね。
BeautifulSoup4の使い方に関しては、また別記事でご紹介します!
スクレイピングに関連する記事
スクレイピングを行うに当たって、「Beautiful Soup」だけを使って実行することはないわけですが、私がスクレイピングを行う際に使ったものとして、Selenium WebDriverというブラウザを自動的に操作するツールがあります。
それらに関連する記事をご紹介しておきます。あわせてご覧ください。
Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
PythonでUTF-8など日本語(全角文字)を使う方法。コメントにも必要。
Pythonをコマンドラインで実行。全角文字(日本語)を引数にする場合の対処方法
Selenium WebDriverでFirefoxをプライベートウィンドウ/Chromeをシークレットモードで起動する方法・言語はpython
Selenium WebDriver、Pythonをインストールし Chromeの自動操作の環境構築手順のまとめ
Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
PythonでMySQLへの接続ライブラリMySQL-pythonの簡単インストール方法
PythonでURLの有無、存在をチェックするスクリプト
GoogleAdwords
GoogleAdwords
この記事が参考になったと思いましたらソーシャルメディアで共有していただけると嬉しいです!
関連記事
-
-
EストアのショップサーブのWordPressサービスにメリット無し
ショップサーブのオプションサービスのWordPressを使ってみましたがデータベースには直接触れず使えないサービスでした。
-
-
X Serverへの引越しの注意点まとめ。ロリポップとの違いと対処方法 6事例
ロリポップからX Serverに引越し。ロリポップとX Serverの違いに注目することでX Serverの設定方法を明確にします。またX Serverならではの設定ポイントなども解説。
-
-
chromedriver.exe – ディスクがありませんと出てSeleniumの設定が上手くいかない
Selenium WebDriverを使ってChromeを自動操作する仕組みを作る際、chromedriver.exeを利用しますが、ディスクがありません、というエラーが発生する場合があります。その対処方法を解説します。
-
-
Apacheの起動しているかの確認方法と起動、再起動、終了のコマンド
Apacheが起動しているかを確認する方法の解説に加え、Apacheの起動、停止、再起動のコマンドを解説。再起動のコマンドには restart、condrestart、reload、gracefulがあり、違いを解説。
-
-
Selenium WebDriverでFirefoxをプライベートウィンドウ/Chromeをシークレットモードで起動する方法・言語はpython
Seleniumでは初期状態でブラウザを起動する Seleniumでブラウザ …
-
-
ロリポップからX-Serverに引越し。サーバの月額費用が増えても求めた理由は?
ロリポップからX-Serverに引越すその理由とは?SEOの観点からも少しでもサーバレスポンスが早いサーバが求められロリポップでは限界を感じたからです。
-
-
Gitはフォルダ自体を管理対象にはできない。空のフォルダを設定する手順
Gitはフォルダだけを管理対象にすることはできない。そのため空の.gitkeepファイルを作成し管理対象にすることで、それが入っているフォルダも管理対象にする、と言う手順で管理を行う。
-
-
借りてはいけないレンタルサーバ実例4社・アルファメール・WEBアリーナ
餅は餅屋。サーバはサーバ屋が提供するサービスを利用するべきという記事で、具体例 4サービスを例にこんなサーバはNGと紹介しています。
-
-
エックスサーバーで独自SSLは永久無料で取り放題。利用方法と理由を解説!
エックスサーバーでは独自SSLが無料でいくつでも設置できるように!しかも、国、都道府県などの数項目の入力と数クリックだけという超簡単!SSL化しない理由がない!
-
-
さくらサーバのmb_send_mailでメール送信時にmalformed header from script ‘xxx.php’: Bad header: xxxのエラーが
さくらインターネットのレンタルサーバからPHPのmb_send_mail()関数を利用してメールを送信するとInternal Server Errorが発生。その原因は、メールアドレスが登録されていないこと。