PythonでURLの有無、存在をチェックするスクリプト

2017/02/18 2017/04/29

Pythonで URLの有無を確認するスクリプト

Pythonの urllib2で URLの有無をチェック

　
入力された URLが正しいか、否かをチェックする処理を考えていたのですが、日本語ドメインのことまで考慮すると、果たしてチェックができるのだろうか？と考えるに至りました。
　
ですが、pythonには「urllib2」という便利なライブラリがありまして、入力された URLにアクセスしてみることで、入力された URLが存在するか、しないかをチェックすることができることが分かりました。
　
というわけで、入力された URLが存在するか、しないかをチェックする処理を解説します。
　
　

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

URLが存在しているか、否かを確認するスクリプト

　
サンプルのスクリプトは以下の通りとなります。
　

# -*- coding: utf-8 -*- 

# 文字列検索・置換モジュールの import
import re

# URLを取得するモジュールの import
import urllib2


# URLチェック関数
def checkURL(url):

    if re.match(r"^https?:\/\/", url):
        try:
            response = urllib2.urlopen(url)
            response.close()
            return "OK"
        except urllib2.HTTPError as e:
            print "NotFound:  " + url
            return "NG  Error Code: ", e.code
        except urllib2.URLError as e:
            print "NotFound:  " + url
            return "NG  Reason: ", e.reason
    else:
        return u"URLは http://、https:// から記述してください。"


input_url = "http://yahoo.co.jp"
check_result = checkURL(input_url)

if check_result == "OK":
    print u"アクセスOK"
else:
    print check_result

# -*- coding: utf-8 -*-

# 文字列検索・置換モジュールの import

import re

# URLを取得するモジュールの import

import urllib2

# URLチェック関数

def checkURL(url):

if re.match(r"^https?:\/\/", url):

try:

response = urllib2.urlopen(url)

response.close()

return "OK"

except urllib2.HTTPError as e:

print "NotFound: " + url

return "NG Error Code: ", e.code

except urllib2.URLError as e:

print "NotFound: " + url

return "NG Reason: ", e.reason

else:

return u"URLは http://、https:// から記述してください。"

input_url = "http://yahoo.co.jp"

check_result = checkURL(input_url)

if check_result == "OK":

print u"アクセスOK"

else:

print check_result

URLが存在しているか、否かを確認するスクリプトの解説

　
解説というほど解説する内容はありませんが、入力された URLを「input_url」に入れて、URLのチェック関数を通しています。
　
URLは、まず最初に、「http://」「https://」のいずれかで始まっているかをチェックしています。
「http://」「https://」がないと、次の行の「urllib2.urlopen(url)」でエラーが出るためです。
　
続いて、「urllib2.urlopen(url)」で入力された URLにアクセスをしてサイトの情報を取得します。
サイトの情報が取得できれば、入力された URLは有効な URLとして判断します。
　
この時、エラーが返ってきた場合は、例外処理としてそのエラーを補足して、エラー処理を行います。
　
エラーの補足の順番は、「urllib2.HTTPError」「urllib2.URLError」である必要があります。
　
　
詳しくは、下記のページに解説がありますので参考にしてください。
http://docs.python.jp/2/howto/urllib2.html
　
　

SSL認証エラー「urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:661)」の対処方法

　
ブラウザでは表示される URLでも、Pythonで実行すると「urllib2.URLError」の例外処理で、「urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:661)」のエラーが発生する場合があります。
　
これは、Python 2.7.9以降では SSL証明書が正しくない場合に SSL認証エラーを出すように仕様が変更になったためです。
　
　
対処方法は、下記の 2行をプログラムに追記すれば OKです。
「import urllib2」を編集している次の行あたりに追記するといいでしょう。
　

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

1 2	import ssl ssl._create_default_https_context = ssl._create_unverified_context

　
　
解説は、英語のページですが下記にありますので、あわせて参考にしてください。
https://www.python.org/dev/peps/pep-0476/
　
　

selenium＋Pythonで処理の自動化に関する記事

Selenium WebDriver、Pythonをインストールしブラウザ自動操作の環境構築手順のまとめ
 PythonでUTF-8など日本語（全角文字）を使う方法。コメントにも必要。
Pythonをコマンドラインで実行。全角文字（日本語）を引数にする場合の対処方法
 Selenium WebDriverでFirefoxをプライベートウィンドウ／Chromeをシークレットモードで起動する方法・言語はpython
Selenium WebDriver、Pythonをインストールし Chromeの自動操作の環境構築手順のまとめ
 Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説
 PythonでMySQLへの接続ライブラリMySQL-pythonの簡単インストール方法
 PythonでURLの有無、存在をチェックするスクリプト

- プログラミング・Web関連技術

最後までお読みいただきましてありがとうございます。
この記事が参考になったと思いましたらソーシャルメディアで共有していただけると嬉しいです！

Message コメントをキャンセル

※入力いただいたコメントは管理者の承認後に掲載されます。

: Gitで基本的なデプロイ（push、pullで本番公開）環境を作る手順解説

開発進行中の環境、公開中の環境にGitを導入する。その基本的な手続きを解説。Gitの導入、ローカルリポジトリを作成。リモートリポジトリを利用し、本番環境にデプロイする手続きを解説。

: EストアのショップサーブのWordPressサービスにメリット無し

ショップサーブのオプションサービスのWordPressを使ってみましたがデータベースには直接触れず使えないサービスでした。

: ブラウザのキャッシュを活用するの対策！広告バナーを消して表示を高速化

あなたのサイトが遅いのはバリューコマースのバナーではないですか？バリューコマースのバナーを外すだけでmod_deflateとmod_expiresを設定するより効果があります！

: PythonでMySQLへの接続ライブラリMySQL-pythonの簡単インストール方法

PythonはMySQLに接続するライブラリは別途インストールが必要。なのでMySQL-pythonライブラリのインストール方法とサンプルスクリプトで動作検証までを解説。

: 日本語は2バイト文字？3バイト文字？

日本語は2バイトという理解でしたが、UTF-8では事情が違います。その説明です。

: 本当に？GMO系ロリポップ・ヘテムルを無料で運用する方法があった！

ロリポップ、ヘテムルを株主優待を利用して実質無料で運営しよう!という解説記事です。株主優待で提供されるサービスの内容を解説し、無料になる仕組みを解説します。

: 借りてはいけないレンタルサーバ実例4社・アルファメール・WEBアリーナ

餅は餅屋。サーバはサーバ屋が提供するサービスを利用するべきという記事で、具体例 4サービスを例にこんなサーバはNGと紹介しています。

: Gitで「fatal: Authentication failed for ‘https://example.com/git_repositories/example.git/’」のエラーが出た場合の対処方法の一つ

Gitのリモートリポジトリにアクセスする際、Authentication failedのエラーが。しかし、ID、PASSが間違っているのではなく、リモートリポジトリのURLが間違っている場合もあるので再度確認を。

: So-netのレンタルサーバHSはヤバイ・借りてはいけないレンタルサーバリスト

餅は餅屋。サーバはサーバ屋が提供するサービスを利用するべきという記事で、単独でSo-netを紹介。OEMでサービスの提供を受けているだけなので何とも残念すぎる内容。

: さくらサーバのmb_send_mailでメール送信時にmalformed header from script ‘xxx.php’: Bad header: xxxのエラーが

さくらインターネットのレンタルサーバからPHPのmb_send_mail()関数を利用してメールを送信するとInternal Server Errorが発生。その原因は、メールアドレスが登録されていないこと。