部分一致と完全一致の2つのコピー判定方式について

非常にニッチな「文章コピーチェック」の事ですが、ユーザーの方あまり認識されていない「文章の一致方式」について説明したいと思います。

このブログ記事のまとめ

  • 1語単位で一致判定する方式と、語の並び順まで判定対象する2つの方式がある
  • 語の並び順まで判定する完全一致判定の方が精度く判定できる
  • 完全一致判定は目視確認がしやすく、誤判も防ぐ

判定方式その1:部分的な一致による判定

部分一致とは、コピーチェック対象となる文章と、類似の可能性が高いと疑われる文章を1語もしくは1品詞毎に一致を照合していくものです。

一致する1語がある場合、その1語の前後の並び順を考慮しない為、たまたま同じ単語を使っている文章もコピー元として抽出される事があります。

f:id:copydetect:20151018115535p:plain

上の図の様に、文章としては全く一致しないものの、1語単位で一致すれば、コピーとして判断してしまう事があります。

この為、実際にコピー元として表示されたWebページの文章とコピーチェックした文章を目視で照らしあわせても一致しない事が多く、結果多くの時間を書けてコピーでは無い事が目視で初めて分かる事もあります。

この様に、部分一致の場合、1語もしくは1単語単位で一致する箇所があれば、並び順関係なく類似・一致として誤判する事があります。

しかしながら、部分一致は巧妙なリライトなどのコピペを探すにはその力を発揮します。語尾を変えるだけではなく、文章の内容にアレンジが入っている場合や名詞が異なる場合、完全一致よりも部分一致の方が検知精度は高いケースもあります。

しかし、これほどまでのリライトを行う事は文章を0から書き上げる事に等しく、たとえ部分一致で類似が検知しても、それはコピペでは無くほぼ別の文章になっているケースが多いです。

判定方式その2:語の並順も判定対象となる完全一致判定

完全一致判定とは、コピーチェック元の文章とコピーの可能性が高いと疑われる文章の「語の並び順」も完全に一致するか否かも考慮し、コピーを判定する方式です。

f:id:copydetect:20151018115830p:plain

上図の様に、1語単位では重複するものの、語の並び順が異なる場合は、スペースで区切りを付ける事で、視覚的に「単純な語単位での被り」だという事が分かるようになっています。

Copydetectはこの完全一致方式でコピーチェック判定を行っています。

語の並び順まで考慮した完全一致形式の方が良い理由は、目視によるコピー判定をする際に圧倒的に簡単である事と、誤判が少ない事にあります。

メリット1:目視チェックが短時間で済む

類似・引用が疑わしいWebページを表示した際、どの箇所が重複しているのか確認する際、よく用いるのがブラウザの検索機能です。

並び順が考慮されていない部分一致検索の場合、当然並び順が異なる為、コピーチェック結果では重複として表示される箇所をブラウザ内で検索しても該当しない事があり、どの箇所が重複なのか目視判定出来ない事があります。

f:id:copydetect:20151018120025p:plain

完全一致の場合、対象となるWebページと語の並び順も完全に一致している為、ブラウザやPDFビューワーの検索機能でも簡単に重複箇所を探す事が出来ます。

これにより、本当に盗用なのか、それとも数語だけ一致(被る)したのかを正しく短い時間で探し出し、判定出来ます。

メリット2:誤判を防ぐ

部分一致の場合、1語単位で判定している為、コピーチェック対象となる文章量(文字数)が少ない程、誤判してしまう可能性があります。

例えば、チェック対象となる文章が200文字あり、コピーが疑わしい文章が10倍の2000文字であった場合、大抵は語単位で重複してしまいます。

しかし、良く目視で両文章を比べると、内容は全く重複しておらず、文章単位でも重複は殆ど見られないケースがあります。

ツールのチェック結果のみで判定した場合、本来はコピーでは無いにも関わらずライターに書き直しを誤って依頼してしまう事もあり得ます。

これでは、誤判でライターとの関係性を悪化させてしまう事にもなりますし、その後の再発防止で目視判定に多くの時間を割かなければならない事態にもなります

CopyDetectの開発のキッカケ

弊社株式会社Coreは、コンテンツマーケティングの支援やコンサルティングサービスを手がけています。

競合他社や想定顧客の調査・分析から、ペルソナ設計、KPI設計、コンテンツ案の企画、ライターリクルーティング、ディレクションなど一気通貫してコンテンツマーケティングに於ける支援サービスを提供しています。

ライターとクライント企業間のディレクションサービスでは、ライターから入稿された記事を編集者が目視で検文し、校正・校閲をかけていく業務があります。

その際、文章のコピーチェックを行い、無断な引用や盗用が無いかを確認し、納品しています。

チェック精度を高める

以前、弊社では市販のコピーチェックツールを使ってライターから入稿される文章をチェックしていました。しかし、大量にコピーチェックを行う中で、判定精度が低い為チェックをすり抜けるコピー文章もありました。

参考:部分的なコピペも検出するコピペチェック方法

目視による検文時の効率化を図る

また精度と合わせて重要なのが判定する際の効率面でした。

誤認を避ける為、目視で見比べて判定する際、どうしても一つ一つの文章を実際に読み判定しなければならない為、この作業で多くの時間を要してしまいます。

部分一致判定のツールでは、この目視作業に膨大な時間がかかる事が多く、また最後まで文章を読み、結果コピーとは判断し難いという事が何度もありました。

効率面ではやはり文字の並び順までツール側で判定させる必要がありました。

チェック1回あたりのコストを下げる

弊社の要件を満たすコピーチェックツールは市場に1つ存在しましたが、1回あたりチェックコストが100円近くかかります。

ライターによる執筆記事であれば予算も組まれる為、100円のコストは全く問題ではありませんが、一般ユーザーが入稿するUGC型メディアでは採算性が合わない事があります。

UGC型メディアのクライント企業様でも問題なく利用できるコストで、一定の精度と工数削減を考慮した判定補助機能を備えたコピーチェックツールとして企画し、開発したのがCopydetectです。

現在は、1日5回まで無料で提供していますが、大量にコピーチェックが必要なWebメディア企業様やライティングプロダクション企業様にはBizアカウントAPIを提供しています。