読者です 読者をやめる 読者になる 読者になる
 

Google検索によるコピーチェックがお勧め出来ない理由

先日、あるコンテンツメディアを運営している企業にコピーチェック方法をお聞きした所、記事の文章からランダムに文章を複数抜粋し、その文章をGoogleで検索し、一致ヒットするか否かでコピペを判断しているとの事でした。

f:id:copydetect:20151101201418p:plain

この方法は盗用検出精度が低く、効率が悪い為、Google検索を用いたコピーチェックは弊社ではお勧めしていません。

又、一部のコピーチェックツールはチェックする文章を複数の文節に分解し、それらをフレーズ一致検索(検索文字を””で囲み検索)しているものがありますが、このチェック方法も同様にお勧めしていません。

今回はなぜGoogle検索によるコピーチェックがお勧め出来ないかを説明します。

【理由1】フレーズ一致検索はリライト文を検出できない

Googleの検索窓に「”検索する文章”」とダブルクオーテーション(””)で検索ワードを囲む事で、検索クエリと完全に一致するWebページのみが検索結果が表示されます。

f:id:copydetect:20151101193127p:plain

丸々コピペであればフレーズ一致(完全一致)検索でも検出できますが、一文字変更するだけでフレーズ一致検索によるチェックをすり抜けてしまいます

最近の文章盗用やコピペは完全コピーした文章ではなく、部分的にリライトをかけるケースが多く、巧妙に文章を変えているコピペ・抜粋も検出するにはフレーズ一致検索は適切な方法ではありません。

【理由2】文章のGoogle検索は、コピペチェックに向いていない

Googleなどの検索エンジンは、単語ベースの検索に特化した形で開発されています。

ページ内コンテンツやドメインが保持するテーマ性、外部からのリンクなど様々な評価値を総合的に算出し、順位を決定しています。この仕組が、1~3語の単語ベース(キーワード)の検索時に精度高い検索結果を表示します。

f:id:copydetect:20151101194330p:plain

しかし、単語ベースから複数の単語の集合体である「文章」の検索になると、精度が異なってきます。検索対象となる単語数が増える事で、ランキング決定要素である判断軸(値)が分散し、対象となる単語が殆ど含まれていないWebページが上位に表示されることがあります。

又、類似重複コンテンツを検索結果から排除するフィルター(パラメーターfilterの値を1にする)を解除する事で、類似コンテンツも検索結果に表示されますが、検索結果の数が膨大になりチェックする工数が増えてしまいます。

単語の数が増えた事により、Google検索の強みである関連性の高いページを上部に表示するアルゴリズムが発揮されず、コピーコンテンツを掲載しているWebページが下の順位で表示される事もあり、盗用を見落としてしまいます。

【理由3】全ての文章をチェック出来ず、盗用を見落とす

手動で一文一文文章を抜粋し、Google検索でコピー検出する場合、ランダムで抜粋し一部のみをチェックすると思います。

このチェック方法の場合、リライトした文章や文中に数文だけコピー文章が入っている場合は、その盗用を見落としてしまいます。

かと言って一つひとつ手動で検索する訳にも行きません。
Google検索で1回に検索する事ができる単語数は32語までとなっています。文字数では約90~100文字程度です。

f:id:copydetect:20151101200844p:plain

例えば、2000文字の文章をチェックしようとした場合、20回以上の検索が必要となります。更に、検索結果に表示されたWebページを一つ一つ表示し、目視で比較しなければなりません。これは非常に工数を要し、現実的ではありません。

部分的なチェックであれば、2~3回の検索でチェックを終える事ができますが、文章の殆どをコピーチェックしていない為、見落としてしまう可能性があります。

検索エンジンを使ってコピペを検出するには

チェックする文章を出来る限り短く、文節ごとに分解し、GoogleやBingなど複数の検索エンジンで検索してみると良いでしょう。

又、クオテーションマークやallintextコマンドなどを使う事で、Googleインデックスから正確に類似コンテンツを検出できます。

300文字以上の文章は3回以上のWeb検索が必要な為、専用のコピーチェックツールを使って効率良くチェックすると良いでしょう。