************************************
【 DX推進のTips 】
本シリーズは、Regrit Partnersに所属するコンサルタントが、日常の
コンサルティング業務を通じて得た"気づき"を発信する記事です
************************************

株式会社Regrit Partners
Principal / Digital Marketing
濱野 寿朗  

直近のビジネス検索トレンドワード上位のイーロンマスク」、「Twitter」、「スクレイピング」をテーマに、ChatGPT4、Bard、濱野の3者で対談を実施しました

シーン:全自動AI/BabyAGI(UI版)を使ってChatGPT4、Bard、濱野の3者で対談を行った。

※今回はOpenAI ChatGPTとGoogleBardをセレクト

※濱野=マッキンゼーやデロイトのデジタル部門及び事業会社で、デジタルマーケティングやAI、WEB3開発や実装を数多く手掛ける。


濱野: 今回はユーザーの私と、GoogleBardとChatGPTでスクレイピングについて対談を行います。可能ですか?

Bard: はい、もちろんです。スクレイピングは、Webサイトから情報を自動的に収集するプロセスです。さまざまな目的に使用できますが、最も一般的なものは、データの分析とWebサイトの監視です。スクレイピングは、法律に違反している場合があるため、注意して使用する必要があります。

ChatGPT: こんにちは。もちろん可能です。スクレイピングについて何か質問がありますか?


濱野: Twitterのイーロンマスク氏が生成AIを含む大量のスクレイピング対策の為に、Twitterの閲覧文字数の制限を行いました。クレイピングのメリットとデメリットは何ですか?

Bard:  Twitterのイーロンマスク氏が、生成AIを含む大量のスクレイピング対策の為に、Twitterの閲覧文字数の制限を行いました。これは、スクレイピングによるTwitterのパフォーマンス低下を防ぐための措置です。スクレイピングは、Webサイトから情報を収集するための強力なツールですが、その使用には注意が必要です。スクレイピングを行う前に、その目的と潜在的なリスクを理解し、法律に違反しないようにしてください。

スクレイピングのメリットは、Webサイトから大量のデータを自動的に収集できることです。これにより、データの分析とWebサイトの監視が容易になります。スクレイピングは、さまざまな目的に使用できるため、非常に汎用性が高いツールです。

スクレイピングのデメリットは、著作権侵害につながる可能性があることです。また、スクレイピングを行うと、Webサイトのパフォーマンスが低下する可能性があります。スクレイピングを行う前に、その目的と潜在的なリスクを理解することが重要です。

ChatGPT:  Twitterは、スクレイピングに対抗するために、閲覧制限を設けています。未認証アカウントの場合、1日に閲覧できるツイート数が600件に制限されています。Twitterは、APIを介さないスクレイピング行為が明確に禁止されているため、スクレイピングを行う場合はAPIを利用することが求められます。スクレイピングのメリットとデメリットについては、メリットとして大量のデータを収集できることが挙げられますが、デメリットとして、スクレイピング対策が強化されることで、スクレイピングが困難になることや、スクレイピングによって機密情報や個人情報が漏洩してしまうことがあるため、注意が必要です。


濱野: まず大前提として、ChatGPTやBardサーバー側にはユーザーからの質問プロンプトや、LLMから生成された回答のソースコードは、学習されているかは別として、コピペや蓄積されていますね?

Bard: はい、Bardサーバー側にはユーザーからの質問プロンプトや、LLMから生成された回答のソースコードは、コピペや蓄積されています。これは、これらのモデルがユーザーからの質問をよりよく理解し、より良い回答を生成できるようにするためです。ただし、これらのモデルは、ユーザーからの質問や回答をコピーするだけで、学習しているわけではありません。ユーザーからの質問や回答を理解し、分析することで、モデルは新しい知識を獲得し、パフォーマンスを向上させることができます。

ChatGPT:  はい、その通りです。ChatGPTやBardサーバー側には、ユーザーからの質問プロンプトや、LLMから生成された回答のソースコードが蓄積されています。ただし、それらの情報は機密情報として扱われ、外部に漏洩することが無いようセキュリティ管理を厳密に行っています。


濱野: BardやChatGPTからの生成回答のソースコード内には、様々なWEBサイトから有象無象に集められたソースコードが入っており、HTMLタグを見ればソース元が分かります、したがって生成された回答を商売等に利用すると、アメリカのニュースにある様にプログラマーや作家から訴えられてる可能性がありますか?

Bard:  ChatGPTやBardなどの大規模言語モデルは、テキストとコードの膨大なデータセットでトレーニングされています。このデータセットには、Webサイト、書籍、コードリポジトリなど、さまざまなソースからのデータが含まれています。ChatGPTやBardは、このデータセットを使用して、テキストを生成し、言語を翻訳し、さまざまな種類のクリエイティブ コンテンツを作成し、有益な方法で質問に答えることができます。

ただし、これらのモデルは完璧ではありません。生成されたテキストには、誤りが含まれる場合があります。また、これらのモデルは、その回答のソースを常に正確に識別できない場合があります。したがって、ChatGPTやBardからの生成回答を商売等に利用する場合は、これらのリスクを認識しておくことが重要です。

ChatGPTやBardからの生成回答を商売等に利用する場合は、次の点に注意してください。

  • 回答のソースを明確に示してください。
  • 回答がChatGPTやBardによって生成されたことを明確に示してください。
  • 回答を商用目的で利用する場合は、著作権者から許可を得てください。

これらの点に注意することで、ChatGPTやBardからの生成回答を商売等に利用するリスクを軽減することができます。

例えば、ChatGPTやBardから生成された回答を、書籍や記事などの著作物に使用する場合、著作権侵害に該当する可能性があります。また、ChatGPTやBardから生成された回答を、Webサイトやアプリなどの商用サービスに使用する場合、商標権侵害や不正競争法違反に該当する可能性があります。

ChatGPTやBardからの生成回答を商売等に利用する場合は、これらのリスクを十分に理解し、適切な対応をとることが重要です。

ChatGPT: BardやChatGPTからの生成回答のソースコード内には、様々なWEBサイトから有象無象に集められたソースコードが入っていることがあります。ただし、それらの情報は著作権法に基づいて保護されており、商業目的で利用する場合は、著作権者の許可が必要です。著作権者の許可を得ずに商業目的で利用すると、訴訟を起こされる可能性があります。


濱野: スクレイピングされたデータ元のタグをみればプロトコルやIPアドレスも把握できるので、生成データをビジネスで利用する際、利用者は注意が必要ですね。

Bard: はい、その通りです。データの著作権侵害を避けるために、生成データのソースを明確に示す必要があります。また、生成データに含まれる個人情報や機密情報を保護するために、適切な対策を講じる必要があります。さらに、生成データが正確で最新のものであることを確認する必要があります。生成データが正確でないと、ビジネスに悪影響を与える可能性があります。生成データは、ビジネスに多くのメリットをもたらす可能性があります。しかし、生成データを利用する際には、注意が必要です。

ChatGPT: はい、その通りです。スクレイピングされたデータ元のタグをみれば、プロトコルやIPアドレスも把握できるため、生成データをビジネスで利用する際には、利用者は十分に注意が必要です。


濱野: スクレイピング以外でコンテンツを収集する方法はAPIが一般的ですが、それ以外にもありますか?

Bard: はい。以下に、いくつかの例を挙げます。

手作業で収集する

データベースから収集する

クラウドソーシングを利用する

ソーシャルメディアから収集する

手作業で収集する場合は、Webサイトから必要な情報を手動でコピーして保存します。データベースから収集する場合は、データベースに保存されている情報を取得します。クラウドソーシングを利用する場合は、インターネット上の人々から情報を収集します。ソーシャルメディアから収集する場合は、ソーシャルメディアに投稿されている情報を収集します。

スクレイピングは、Webサイトから情報を自動的に収集する方法です。スクレイピングは、手作業で収集するよりも効率的に情報を収集できます。しかし、スクレイピングは、Webサイトの利用規約に違反する可能性があるため、注意が必要です。

APIは、アプリケーションプログラミングインターフェイスの略です。APIは、Webサイトやデータベースなどの外部システムとアプリケーションを連携させるための仕組みです。APIを利用することで、Webサイトやデータベースから情報を取得したり、情報を送信したりすることができます。

APIは、スクレイピングよりも安全に情報を収集することができます。また、APIは、スクレイピングよりも効率的に情報を収集することができます。そのため、APIは、スクレイピングの代替としてよく使用されています。但し、APIはデータ量に応じて費用がかかるので十分な注意が必要です。

ChatGPT: はい、API以外にも、電子書籍、スクレイピングやデータ連携ツールの利用などがあります。ただし、スクレイピングはAPIと異なり「非公式なデータ収集方法」ということで、関係法令やデータ収集先の利用規約、自社のコンプライアンスの確認を行い、予期せぬトラブルを起こさないようにすることが重要です。


濱野:今回も有難うございました。前回からお二人の解答の変化としては、Bardは広い範囲の知見を回答してくれますが、ChatGPTは前回より回答範囲が狭くなり、より慎重な回答になっている気がします。また次回も宜しくお願いします。

Contact

当社のサービスや採用に関するお問い合わせはこちらから

Contact form