エス技研

WordPress、CakePHP、PHP、baserCMSなどの Web系システムを中心に情報を提供します!


コピーコンテンツ・直リンクの3つの対策Google通報などのまとめ

      2017/03/12

コピーコンテンツ対策・直リンク対策のまとめ

 

コピーコンテンツ対策・直リンク対策の経緯

 
この一連の記事は、当エス技研ブログの全文コピーサイトを発見したことをきっかけに生まれました。
対処の方法を試行錯誤し、実際に対処した内容を中心に対処の方法や考え方を解説していきます。
実際にサイトを運営することでいろいろなことが学べますね(笑)。
 
 

Googleはコピーコンテンツ撲滅を目指す

 
他人の記事を簡単にコピーしてコピーコンテンツのサイトを作っている方々がいます。
最近は Googleの検索エンジンのアルゴリズムは定期的にアップデートされていて、コピーコンテンツは表示されにくくなっていますが、コピーコンテンツの問題はなくなりません。
 
WordPressの場合は、デフォルトの設定では RSS配信が全文配信となっていますので、余計に全文コピーされやすくなっていることも一つの原因として挙げられるかもしれません。
そして、記事を RSSから取得していますので、画像は直リンクのままの場合をよく見かけます。
 
 
コピーコンテンツを作っている側は、著作権などの問題があることを承知の上でやっている方もいるわけですが、コピーされているサイトを運営している側も、そのサイトから被リンクがある場合は、紹介してもらっているし、被リンクもしてもらっているし...と思って本格的な対応をされない方もいらっしゃいます。
 
実際に何かしらの対応をするのは面倒ですし、技術的なスキルを必要とする場合もありますからね。
最近はキュレーションメディアが花盛りで、どこまでが認められるのかという難しい問題もあります。
 
 
ですが、Googleが行っているパンダアップデートやペンギンアップデートなどの趣旨を鑑みると、今後はコピーコンテンツからの被リンクが増えてもメリットよりもデメリットの方が大きくなっていく可能性が高いと考えられます。(パンダアップデート、ペンギンアップデートについては、記事の最後の「Googleのパンダアップデート、ペンギンアップデート」に書いています。)
 
なぜなら、Googleはコピーコンテンツは不要と考えているからです。
 
 
また、直近では 2014年10月に「パイレーツアップデート2」を実施しました。
詳しくは、記事の最後の「Googleのパイレーツアップデート」で解説していますが、著作権侵害の訴えが多いサイトの評価を下げるアップデートです。
 
このように Googleは著作権への対応も積極的に行っています。
(Google自体が著作権の問題でやり玉に挙げられる場合も多々あるわけですが。)
 
 
そんなわけで、コピーコンテンツを見かけた場合は、積極的に対応を行っていかないと、将来に向かって悪影響を残してしまう可能性がありますので、しっかりと対処をしていきましょう。
 
 

コピーコンテンツ対策の 3つの方法

 
この記事で紹介してるコピーコンテンツの対策は 3つです。
 
【目次】
 
Googleの検索エンジンへの対策
画像の直リンク対策
RSSによる全文配信を止める
 
 
 

Googleの検索エンジンへの対策

 
コピーコンテンツサイトへのもっとも基本的な対策は、著作権を侵害しているサイトがあることを Googleに通報することです。
 
それが認められると、Googleの検索インデックスから著作権を侵害しているサイトの情報が削除され、検索結果に表示されなくなります。
Googleの検索ページに表示されなくなると言うことは、おおよそそのページが一般に知られることはなくなる、と言うことになります。
 
また、著作権侵害の通報が多いサイトは、著作権侵害サイトとして Googleからペナルティを受けることになり、サイト全体の評価が下がり、検索エンジンから来訪者がなくなるという結果につながります。
 
 

Google WebMaster Toolから通報の手順

 
この通報は「WebMaster Tool」から行いますので、まだ「WebMaster Tool」を使っていない方は登録を行いましょう。
 
Google Webmaster Toolにログインし、下記の URLにアクセスします。
 https://www.google.com/webmasters/tools/spamreport?hl=ja
 
「著作権とその他の法律に関する問題」をクリックします。
20150216_web_01
 
「ウェブ検索」を選択します
20150216_web_02
 
「上記以外の法的な問題が発生している」を選択します。
20150216_web_03
 
「自分の著作権を侵害している可能性のあるコンテンツを見つけた」を選択します。
20150216_web_04
 
「はい、私は著作権所有者、または侵害されていると主張する独占的権利の所有者から代理権を許諾されている者です」を選択します。
20150216_web_05
 
「その他」を選択します。
20150216_web_06
 
「こちらのフォーム」をクリックします。
20150216_web_07
 
表示される各項目にそれぞれ情報を編集します。
20150216_web_08
 
「著作権対象物を特定する情報とその著作物の説明」には、著作権を侵害していると考えている理由や、何を持って侵害していると判断しているか、あなたの著作物がオリジナルと判断できる理由などコピーコンテンツであることを訴えている理由を記載します。
 
私の場合は、下記のような文章を書きました。
「該当サイトは、ブログなどの記事をを紹介するというサイトという見せ方をしていますが、その実体は単なる記事の全文をコピーして掲載しているサイトに過ぎません。
画像も直接私のサイトから呼び出していますし、「記事元で続きを読む」とリンクを張ってありますので、元の記事がどこであるかも明確です。」
 
 
「当該著作物が許可を受けて掲載されている場所」には、あなたのサイトの URLを記載します。
 
「権利を侵害している著作物の場所」には、コピーコンテンツが掲載されているサイトを掲載します。
 
署名は日本語でも問題ありません。
 
そして、全ての手続きが終了すると、受付受領のメッセージが表示されます。
20150216_web_09
 
削除依頼を行ったものは、Webmaster Toolsの中にある「削除ダッシュボード」から確認をすることができます。
 https://www.google.com/webmasters/tools/dmca-dashboard
 
その後は待つだけです。
 
 

Googleに通報してから

 
Googleが対応をしてくれると、下記のような形で承認されたことが分かります。
20150216_web_11
 
何か問題があったり、追加の情報が必要な場合などは連絡が来るようですが、それ以外の場合は、特に連絡が来ることもなく、この画面で「承認されたURL」に数値が編集されていることを見ることで対応されたことが確認できるだけのようです。
 
 
いろいろ調べると、「Googleに通報して数時間で削除された」といった記事を見かけますが、私の場合は 2週間以上かかりました。
 
2週間くらいは「まだかな、まだかな」と心待ちにして毎日画面をチェックしていましたが、なかなか削除されなかったためすっかり忘れていて、1ヶ月半経ったある日、ふと見て見たら削除されていることに気づきました。
そのため、いつごろ削除されたのかは正確には分かりません。数時間で削除される場合もあるようですが、数週間かかる場合もあるということを理解しておきましょう。もしかすると、通報する人が増えたので手が回っていないのかもしれませんね。
 
そして、削除されたので、この記事を掲載することにしました。
 
 


 
 

Google AdSense対策(画像の直リンク対策)

 
コピーコンテンツの中には、記事を全文コピーする際に、画像はコピーせずにリンクをそのまま使って元のサイトに直リンクを張っているサイトも存在します。
 
その直リンクに対しては、.htaccessの設定をすることで、直リンクを禁止する設定や、違う画像を表示させることで対処を行うこともできます。
 
こちらはこちらでかなり長い記事ですので、別記事にしました。
詳しくは「コピーコンテンツ対策.htaccessで直リンク禁止しリダイレクトで対応」に記事を書きましたのでご覧ください。
 
 
ちなみに、この記事を書くにあたって調査した結果、「直リンク」に関してはいろいろな意味が含まれていることが分かりました。
興味がある方は「直リンクとは何か?直リンクとディープリンクの違いと著作権問題」に詳しい記事を書きましたので、そちらを参考にしてください。
 
 
 
 

Googleのパンダアップデート、ペンギンアップデート

 
Googleの基本方針として「ユーザが望む情報を最適な形で提供する」と言うものがあります。
 
そして、この Googleの基本方針に反することを行っているサイトをスパムサイトとして処理をして、ユーザが望まないコンテンツは上位に表示されないようにする施策を次々に実装しています。
 
その施策の中に検索エンジンのアルゴリズムの更新があり、更新される多くの技術の中で「パンダアップデート」と「ペンギンアップデート」という名称を与えられたアップデートがあります。
 
 
パンダアップデート」は、低品質なコンテンツが検索結果に現れないようにする Googleの検索エンジンアルゴリズムのアップデートの名称です。
 
低品質なコンテンツとは、要するにユーザの役に立たないコンテンツのことで、広告が大部分を占めるコンテンツや、本文がほとんどないページや、他のサイトをコピーして作られたサイト、専門性や独自性が少なく内容が乏しいコンテンツなどを指しています。
これらのコンテンツやユーザの役に立たないため、検索上位には表示されにくくしています。
 
 
ペンギンアップデート」は、スパム行為やウェブマスター向けガイドラインに著しく違反しているサイトを上位に表示しないようにするアルゴリズムアップデートの名称です。
 
こちらは、主に SEO目的に作成されているサイト群を対象にしたもので、SEO目的のリンク集のサイトや他のサイトからキーワードをかき集めて機械的に作成したサイトなどを上位表示しないようにすることなどの行為に対処するためのアルゴリズムです。
また、これに加えて、上記のガイドラインに違反しているサイトから被リンクがあるサイトも上位に表示されないようにするアップデートです。
 
また、これとは別にリンクの売買や不正な方法で上位表示をさせようとしていると見なされたサイトは手動で不正サイトとして処理されています。
 
 
パンダアップデートやペンギンアップデートなどのアルゴリズムの変更を経て、オリジナルのコンテンツで、よりユーザの役に立つコンテンツがより上位に表示されるように日々更新されていっています。
 
ですが、アルゴリズムだけではまだまだ完璧ではありません。
 
そのため、この記事の趣旨であるコピーコンテンツ撲滅のための Googleへの通報は、Googleの趣旨にも合致するため、コピーコンテンツは Googleに通報することで積極的に対処してくれる対象になっています。
 
また、ペンギンアップデートのところでも書きましたが、不正なサイトと見なされているサイトからの被リンクは、プラスの評価ではなく、マイナスの評価となる可能性が高くなってきていますので、不正サイトからのリンクがある場合は積極的に対処していくことをおススメします。
 
 
ちなみに、パンダもペンギンも可愛い動物ですが、可愛らしさから取った名前ではありません。
それぞれ「白」と「黒」がハッキリしている動物ですので、白黒をハッキリさせるという意味合いがあると言われています。
 
 


 
 

Googleのパイレーツアップデート

 
先に触れたパンダアップデートやペンギンアップデートは影響が広範囲に及ぶこともあり、知っている方も多いのですが、その他にも多様なアップデートが知られています。
 
その中で、今回の記事に沿うアップデートして「パイレーツアップデート」というものがあります。
 
「パイレーツ」は海賊ですが、海賊の様に他人のものを横取りしていくような行為を取り締まっていくためのアップデートです。
 
 
Google、DMCA侵害サイトの評価を下げるパイレーツアップデート2を実施
 http://www.suzukikenichi.com/blog/google-rolls-out-pirate-update-2/
 
詳しくは、上記の記事を読んでいただくといいのですが、「パイレーツアップデート」は、2012年 8月に導入されたアルゴリズムで、DMCA(デジタルミレニアム著作権法)に抵触して検索結果から削除されたケースが多いサイトを上位表示されないようにするアルゴリズムのアップデートです。
直近では 2014年10月にアップデートされていますので、本当に最近ですね。
 
上記の記事の中にも書かれていますが、比較的重要なアップデートではありながら、オリジナルのコンテンツを作成している側には全く影響がありませんし、さらにコピーコンテンツを作られて困っている運営者には嬉しいアップデートになるわけですので、いいことばかりのアップデートですね。
 
 
こういうことが広く知られるようになり、コピーコンテンツを作ることが意味がないことだという認識が広がっていくといいですね。
 
そうすると、この記事も必要なくなってくるわけですが、そうなってくれることを願っています。
 
 

SEOの視点からは発リンクも必要

 
今回のこの記事に絡んで、このエス技研ブログの情報が掲載されているサイトを詳細にチェックしました。
 
そこで気づいたのがリンクの設定がされていない URLの記述がかなりあることです。
リンクの設定があるのは、はてなブックマークや NAVERまとめといった Webサービスを利用したものがほとんどで、個人のブログではほとんどリンクの設定がないのです。
 
なぜなのか?
それは過去の SEOの知識が影響しているからでしょう。
 
 

発リンクと被リンク

 
リンクには「発リンク」と「被リンク」があります。
「被リンク」は外部サイトから貼られているリンクのことで、「発リンク」はその逆で自分のサイトから外部サイトへ貼るリンクのことです。
 
SEOの視点から被リンクは非常に大事であることはご存知の方は多いと思いますが、発リンクも大事だという認識がまだまだ広がっていないことで、参考サイトにした URLは記述するもののリンクの設定はしない、ということにつながっているのだろうと考えています。
 
 

発リンクとはどういう位置づけなのか?

 
かつての SEOにおいては、「被リンクを大量にもらい発リンクを行わないことでサイトのパワーが上昇する」と言われていました。
ですが、この考え方はすでに過去のものになっていると言われています。
 
日々のエッセイや創作の文章を書いているような場合は、参考にするような外部サイトはあまりないので発リンクを設定する機会はあまりないのでしょうけども、このサイトのような技術ブログの場合は、自分だけの全くオリジナルな技術というのはおおよそ存在しないわけですので、何かしら参考にした情報があることが普通なわけです。
 
そんな場合、普通に考えて、自サイトの情報だけで終わらずに参考にしたサイトの情報も併せて掲載し、そちらの情報も確認できるようにしておく方が訪問者のためになる、という考え方があるのです。
 
そのため、最近では Googleもそれをしっかり考慮して検索結果に反映していると考えられているのです。
 
発リンクがあるから SEOの視点から悪影響があるということはなく、逆に自然に参照サイトへ発リンクがあるということは、ユーザのことを考えてコンテンツを構築しているサイトとしてしっかりとした評価を受けることができると考えるべきなのです。
 
 
SEOに関して一つの大きな方向として、
SEOを意識して小手先の対応をするのではなく
訪問したユーザにとってどうすれば一番いいコンテンツになるのか

 
それを意識してコンテンツを作ることが結果的に Googleからの評価を高め、検索結果の上位に表示されるようになる、ということですね。
 
 
発リンクに関しては下記のサイトが参考になるんじゃないかと思います。
若干記事が書かれた時期が古いですが、この頃からそう言われてきていたということでしょうかね。
 http://whitehatseo.jp/merit-of-an-outbound-links/
 
 
 

RSSによる全文配信を止める

 
コピーコンテンツを作る際に、RSSフィードの情報を元にしてコンテンツを作成しているパターンが多々あります。
 
理由は、RSSはその性質上、タイトル、本文、抜粋などが分かりやすく分類されているため、それを取得してコンテンツとして作り直すのに都合がいいためです。
また、WordPressの場合はデフォルトが「全文を配信」であることです。
 
これにより、WordPressを使ってブログを作成し、RSSで全文を配信しているサイトはコピーコンテンツを作る側からするとカモサイトなワケです(このブログがそうであったように)。
 
そんなわけで、RSSは全文を配信せず、抜粋のみ配信するようにすべきです。
 
 

WordPressのRSSフィードを全文表示から抜粋表示変更する方法

 
WordPress場合は、RSSフィードを「全文を表示」から「抜粋のみを表示」に変更する方法は、「設定」-「表示設定」の設定画面の「RSS/Atom フィードでの各投稿の表示」を「抜粋のみを表示」に変更します。
 
20150216_web_10
 
詳しくは「WordPressの一般設定 投稿設定 表示設定 ディスカッション メディア」に設定についての記事を書いていますので参考にしてください。
 
 

RSSフィードを「全文を表示」から「抜粋のみを表示」へ

 
上記のような理由から、このエス技研ブログの RSS配信も 2015年の年明けのコンテンツ配信から RSSの全文配信を停止しました。
年が変わったことを契機に対応したわけではなく、昨年の 12月からいろいろと対応をしてみた結果、とあるコピーコンテンツサイトは RSSフィードを元に情報取得をしているようだということが分かりまして、その対策をするタイミングがちょうど年明け 1つ目の配信と重なったというだけのお話です。

 - プログラミング・Web関連技術

GoogleAdwords

GoogleAdwords

最後までお読みいただきましてありがとうございます。
この記事が参考になったと思いましたらソーシャルメディアで共有していただけると嬉しいです!

Message

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

下記の空欄を埋めてください。 * Time limit is exhausted. Please reload CAPTCHA.

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

※入力いただいたコメントは管理者の承認後に掲載されます。

  関連記事

FTPでダウンロード時にファイルが重複するため上書きしますか?と表示される問題

FTPでファイルをダウンロードする際に「ファイルが重複しています。上書きしますか?」というメッセージが出る場合がありますが、これの原因と対策、解決策の記事です。

SyntaxHighlighterを導入してソースコードを見やすくしてみました

PHP、HTMLなどのソースコードをブログで紹介するとき、SyntaxHighlighterを利用することで見やすく提供することが出来ます。

Beautiful Soupを利用してPythonでスクレイピングを行う環境構築方法の解説

BeautifulSoupはPythonでスクレイピングを行う際に便利なツール。インストール方法も簡単。ただ、事前にpipのインストールが必要でその解説もしてます。

Gitはフォルダ自体を管理対象にはできない。空のフォルダを設定する手順
Gitはフォルダ自体を管理対象にはできない。空のフォルダを設定する手順

Gitはフォルダだけを管理対象にすることはできない。そのため空の.gitkeepファイルを作成し管理対象にすることで、それが入っているフォルダも管理対象にする、と言う手順で管理を行う。

X Serverへの引越しの注意点まとめ。ロリポップとの違いと対処方法 6事例

ロリポップからX Serverに引越し。ロリポップとX Serverの違いに注目することでX Serverの設定方法を明確にします。またX Serverならではの設定ポイントなども解説。

直リンクとは何か?直リンクとディープリンクの違いと著作権問題

直リンクは著作権違反なのか?議論の前にまず「直リンク」の意味を正しく理解しよう。直リンクは他のサイトの画像を読み込む、ディープリンクなど多様な意味がある。

PythonでURLの有無、存在をチェックするスクリプト

PythonでURLが存在するか否かのチェックスクリプト。ライブラリ「urllib2」を使い、指定のURLにアクセスしそのレスポンスコードを判別するという仕組み。

Selenium WebDriver、Pythonをインストールし Chromeの自動操作の環境構築手順のまとめ

Selenium WebDriverを使ってChromeを自動操作する環境を構築する手順のまとめ。使用するPythonのインストールから、サンプルスクリプトの動作確認までを詳細解説。

コピーコンテンツ対策.htaccessで直リンク禁止しリダイレクトで対応

不正なコピーコンテンツからの直リンクを拒否する.htaccessの設定方法。拒否するサイトを指定、許可するサイトを指定する方法、単純な拒否と画像の差し替えを解説。

.gitignoreで無視フォルダの中の特定のファイルを除外「!(否定文)」を使う場合の注意点
.gitignoreで無視フォルダの中の特定のファイルを除外「!(否定文)」を使う場合の注意点

Gitで管理する対象、対象外のファイル、フォルダの指定は .gitignoreに記述する。その基本的な記述の方法に加え、無視対象にしたフォルダの中の特定のファイルを管理対象にする記述方法を解説。