
近年、生成系AI(Generative AI)の急速な普及とともに、AIが扱う膨大な学習データの著作権保護や権利処理が大きな注目を集めています。
企業や研究機関が提供する生成AIプロダクトでは、多種多様な文章・画像・音声などを“学習データ”として利用する場面が増えました。
しかし、そうした学習データには著作物が含まれる可能性が高く、法的な問題が生じるリスクを無視できません。
本記事では、AIと著作権にまつわる議論のうち、特に開発・学習段階に焦点を当て、その具体的なリスクや対策を解説します。
また、AIがどうやって学習データを取り込み、どのような仕組みで学習モデルが構築されるのかを技術的に概説しながら、学習データ利用時の著作権上の留意点を整理していきます。
本記事のポイント
-
AIの基本的な技術構造と著作権法のかかわり
AIエンジニアリングにおける学習のプロセス(開発・学習段階)をわかりやすく解説し、日本の著作権法上どう整理されているかを概観します。 -
開発・学習段階で押さえておきたい著作権法上の重要ポイント
著作権法第30条の4(いわゆる“情報解析のための複製”を認める規定)や、非享受目的などの要件を確認しながら、どこまでが許容されるかを示します。 -
学習データ活用で特に問題となる実務上の論点
データソースの選定、学習データとAI生成物との関係性、そしてアルゴリズム規制などについて整理し、リスクマネジメントを検討します。 -
海外の動向や判例紹介
EU・中国・米国など主要地域におけるAI関連の法制度や判例の傾向を紹介し、グローバルな視点でのリスクを理解します。 -
リスクマネジメントの5つのポイントと弁護士に依頼すべき理由
学習データの偏り・流用防止、技術的措置や透明化など、事前に講じられるリスク回避策を解説。さらに専門家のサポートが不可欠な理由を紹介します。
AIの基本的な技術構造と著作権法に関する基本的な考え方
はじめに、AIプロダクトの基本的な仕組みとともに、著作権法との関係での考え方のポイントを解説していきます。
生成AIプロダクトの構造
AIプロダクトは、現在、アウトブットの種類・カテゴリーや利用意図によって、さまざまなものが存在します。
その開発プロセスや構造は、次のように整理されます。
AIの開発・学習段階と利用段階の棲み分けと著作権
AIに関しては、著作権法上、AIプロダクト自体の開発・学習段階と、実装された学習データやデータアセットとしてのAIに対するプロンプト入力による生成・利用(アウトプット)段階とで区別して整理されます。
その理由は、AIの開発・学習において著作物を利用する行為は個別の著作物の内容等に応じた利用ではなく大量で広範なデータの解析による利用行為であると考えられる一方で、AIプロダクトの利用段階においては利用者のプロンプトにより意図して生成された個別具体の生成物をまさに個別の著作物として自ら利用する行為であることから、利用の意図や行為の態様がまったく異なるものと考えられるためです。
AIの学習データと生成物の関係
学習データによって学習されたモデルは、膨大なパラメーターを介して「確率的なパターン」を抽出し、ユーザーからの入力に応じて応答を生成します。
そのため、“学習データそのもの” がAIの最終出力に直接再現されるとは限りません。
しかしながら、学習データに含まれる第三者の著作物が無断で収集された場合、その収集・複製自体が著作権侵害に当たるリスクや、学習済みモデルの出力が元データに類似しすぎるケースなど、著作権法上の問題が生じる可能性があります。
AIの開発・学習段階における著作権の考え方の基本ポイント3つ
AIの開発・学習段階で、著作権法上どのような論点があるのか、基本的なポイントを著作権法第30条の4の構造をもとに、要件を分解しながら解説していきます。
著作権法第30条の4の構造
著作権法第30条の4は、次のように定めています。
(著作物に表現された思想又は感情の享受を目的としない利用)
第三十条の四 著作物は、次に掲げる場合その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合は、この限りでない。
一 著作物の録音、録画その他の利用に係る技術の開発又は実用化のための試験の用に供する場合
二 情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七条の五第一項第二号において同じ。)の用に供する場合
三 前二号に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく当該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、当該著作物の電子計算機における実行を除く。)に供する場合
引用元:e-Gov 著作権法
この規定を分析すると、①「次に掲げる場合」として、1号から3号に掲げる3つのいずれかに該当する場合、及び②①にいう3つのパターンに類するようなもので「当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合」に、③必要な限度において、利用態様を問わず著作物を利用することができる旨を定めています。
そのうえで、④「当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者の利益を不当に害することとなる場合」には原著作物の著作権制限が認められないものとし、ボーダーラインとなる枠組みが示されています。
上記①から④の位置づけとしては、次のように整理できると考えられます。
- 著作物の思想や感情を享受することを目的としない利用根拠を基礎づけるカテゴリーを例示的に列挙
- 思想や感情の非享受目的を規範的な基準として言語化している
- 一般的な制限として、利用に関する「必要性」によって範囲を画している
- 著作物の種類、用途、利用態様との相対関係から著作権者の利益の不当な侵害にならないことを個別具体的なケースに応じた規範的な基準を示している
非享受目的
著作権法上、理論的に、原著作物の著作権者の著作権制限に関する規定はさまざまありますが、次の3つのカテゴリーに分類されます。
思想や感情の享受を目的としない利用は、ひとつ目のカテゴリーにあたります。
<著作権制限のカテゴリー>
そもそも、思想や感情の「享受」とは、著作物の視聴等を通じて、視聴者等の知的・精神的欲求を満たすという効用を得ることに向けられた行為をいいます(出典:文化庁『AIと著作権』2023年6月 36頁)。
そのため、享受目的は、著作物の内容や形状などから、五感を通じて得られる知的・精神的な作用を含むかどうかによるものと考えられます。
AIの開発・学習データとして著作物を利用することは、個々の著作物に表現された内容や形状について、人の知的・精神的な欲求を満たすことを目的としていないと考えられ、著作権法第30条の4に定められる思想や感情の非享受目的の利用行為にあたるものと整理することができるのです。
具体的には、情報解析の用に供するものとして、同条第2号に定められる類型にあたります。
<非享受目的の利用行為>
※多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析をおこなうことをいう。
一方で、この非享受目的の要件は、享受目的との併存が認められるケースにおいては認められないものと解されています。
主として情報解析の用に供する目的であっても、部分的に特定の著作物の内容、形状、性質など著作物自体から得られる何らかの知的・精神的な効用の獲得を目的とする場合においては、著作権制限が適用されず、違法な著作権侵害に該当する可能性があります。
これについては、学習データをどのような方法・態様で獲得するか、客観的にみて何らか著作物の内容等に着目した意図があるかどうかによって異なりますが、詳しくは後述します。
著作権者の利益の不当な侵害とは
著作権者の利益の不当な侵害については、著作権法第30条の4の但し書きに定められます。
その趣旨は、著作権者の利益とのバランスを図ることにあります。
そのため、著作権者の利益の不当な侵害に該当するかどうかは、「著作権者の著作物の利用市場と衝突するか、あるいは将来における著作物の潜在的な販路を阻害するかという観点から」個別具体的に判断されるものと考えられています(出典:前掲文化庁 40頁)。
例えば、すでに学習データに利用するための著作物についてライセンス市場・サービスが成り立っている場合に、当該市場に流通する著作物を著作権者の許諾なく利用した場合には、既存の市場と衝突し、いわばフリーライドするような形で著作物を開発の用に供している点から、著作権者の利益を不当に害するものと考えられます。
AIの学習データと著作権に関する実務上の重要論点3つ
AIの学習データと著作権に関する論点はさまざまありますが、重要なものを3つ紹介していきます。
学習データのソースをどのように選択するか
前記の議論にいう非享受目的の有無に関して、学習用のソースデータをどのように選択するかによって著作権法第30条の4の適用にも影響が出てくる可能性があります。
具体的には、3つの観点があります。
ひとつはソースデータの選択自体と、2つ目は学習データのパラメーター調整におけるフィードバックと、3つ目にパラメーター調整の際の学習データと開発者側の人の知覚との接点があるかどうかです。
例えば、パラメーター調整における人の知覚との接点に関しては、学習データをそのまま提示するデバッグ機能を搭載する場合に、享受目的の介在により非享受目的の利用が否定されないかという論点です。
具体的には、モデルの学習時に収集したデータ(例:ニュース記事、イラスト、写真など)を、デバッグ・検証画面で一括表示するような場合において問題となります。
この点については、あくまでパラメーター調整でのフィードバックにおいて、プロンプトと出力内容との差分を機械的に解析してスコアリングするという程度であれば、非享受目的の利用の範囲内であると考えられます。
一方で、一定の著作物の内容や形状から得られる特徴を分析して、表現内容の再現を意図するような場合は、著作物の内容等に踏み込んで知的・精神的効用の獲得を意図しているため、享受目的が否定できないといえるでしょう。
学習データとAI生成物による著作権侵害の判断基準
学習データのデータセットと学習済みモデルを搭載した生成・利用段階のプログラムは必ずしもイコールではありませんが、学習データとして組み込んだものとAI生成物の著作権侵害の判断が関連性を帯びることも想定しておく必要があります。
上記のようなアメリカカリフォルニア州における判例の考え方にもみられるように、AI生成物の根拠となる学習データ自体の開発過程において、著作権侵害のリスクがある場合には、開発事業者側が著作権侵害を誘発したものとして一定責任を負うことになるリスクがあるためです。
さまざまな観点が考えられますが、ここでは2つピックアップしていきます。
ひとつは、学習データからの直接的複製があるかという点です。
モデルが出力したコンテンツが、特定の原著作物とほぼ同一・類似度が極端に高いとみなされれば侵害リスクが高まります。
もうひとつは、モデルのアーキテクチャの特性として、特定の学習用データの特徴を再現するようなパラメーター調整がおこなわれていないかどうかという点です。
トランスフォーマーモデルなどは基本的に“特徴量の統計的分布”を学習しますが、学習データが特定表現をほぼそのまま再現する場合、学習段階でのプロセスを要因として生成・利用段階での著作権侵害が引き起こされたもの評価される可能性があります。
学習データと生成アルゴリズムによるアーキテクチャ型規制
法令レベルでの規制ではありませんが、学習データの開発におけるアルゴリズムの透明性向上や、どのようにクリエイターの権利保護を図る技術的な措置を施すかがAIプロダクトの開発における実務上問題となります。
海外の動向――法令や判例について
AIの学習データと著作権法上の整理について、海外ではどのような動向があるでしょうか。
法制度の整備や判例について、いくつか紹介していきます。
EUにおけるAI法規制
EUでは、AIの開発と利用に関する包括的な規制として「EU AI規制法(AI Act)」が2024年5月21日に成立し、8月1日に発効しました。
この規制は、AIシステムをリスクの程度に応じて分類し、それぞれに適切な要求事項や義務を課すリスクベースのアプローチを採用しています。
特に、生成AIを含む汎用目的型AIモデルに対しては、透明性や説明責任、データ管理に関する厳格な要件が求められています。
AI開発者が学習データの出所や特性を開示せずに大規模な学習を行うと、著作権侵害や個人情報保護の問題に直面するリスクがあります。
EU AI規制法では、AIモデルのプロバイダーに対し、学習に使用されたデータの詳細なサマリーの公開や、EU著作権法の遵守が義務付けられています。
参照:EY弁護士法人『欧州のAI法規制の現状と日本企業への影響』
中国における判決
2022年12月、特撮作品「ウルトラマン」の制作会社である円谷プロダクションは、中国のAIサービス提供企業を相手取り、同社の許可なくウルトラマンの画像が生成・使用されたとして、著作権侵害で訴訟を提起しました。
被告となった事業者は、円谷プロダクションの許可なく「ウルトラマンティガ」と類似した画像を、AIを用いて生成し、インターネット上で配信していたため、日本の著作権法でいう公衆送信権の侵害が問題となりました。
この訴訟において、中国の広州のインターネット裁判所は、著作権侵害の該当性を認定し、被告のAI企業に対し、損害賠償とともに、関連する画像の生成と配信停止、将来にわたって類似の侵害が起きないよう防止措置を命じる判決を下しました。
参照:Ledge.ai|中国の裁判所、偽ウルトラマン画像の生成AI事業者に著作権侵害で20万円の賠償命令ーー AI生成コンテンツの著作権侵害に関する中国初の裁判
米カリフォルニア州の事例
アメリカのカリフォルニア州では、アーティストらが画像生成AI「Stable Diffusion」を手掛けるStability AIや、Midjourneyほか4社に対し、集団訴訟が提起されていた事件で、今年2024年8月に、AI開発事業者側の責任について示唆的な内容を含む判決が下されました。
判決のポイントとしては、次の点です。
すなわち、AIの学習データにおいて学習対象となった作品の中で、相当程度著作権で保護された作品に基づいて構成されており、プロンプト入力によって必然的にコピーや著作権法上保護された部分が出力される構造になっているのであれば、エンドユーザーによる著作権侵害を誘発することによって、AI開発事業者が誘発的な著作権侵害をすることになるということです。
まさに、AIの開発や学習段階でプリセットするデータアセットの内容やその学習プロセス、プログラムの設計の組み方、学習の元となる著作物をどのようにインプットするのか、追加学習でどのようにフィードバックを与えるかにより、エンドユーザーの著作権侵害が誘発されるリスクが異なります。
学習元の原著作物をどのように利用するかにより、著作権侵害を誘発するかが異なるという視点は、画期的なものと考えられます。
AIの学習データにまつわるリスクマネジメントや対策のポイント5つ
AIの開発においてはさまざまなリスクに対する対応が求められますが、具体的にどのような対策をおこなうべきか、5つのポイントを解説していきます。
学習データの偏り防止
学習データが偏ることで非享受目的の利用であることが否定されるリスクに対しては、次のようなリスク低減策が考えられます。
学習データのソース選択における法務とエンジニアチームの連携
学習データのソース管理やフィルタリング機能などは、エンジニアリング上の実装が不可欠ですが、その要件を定義するには著作権法やプライバシー法などを深く理解する必要があります。
定期的なミーティングや監査で、法的要求と技術仕様の齟齬をなくすことが重要です。
具体的には、ウェブスクレイピングやデータソースの抽出の際に、データマッピングなどをおこなった上で弁護士のフィードバックを受けてデータの偏りがないかを検証することが考えられます。
開発段階でのログ追跡
大型言語モデルの場合、学習プロセスがブラックボックス化しがちです。
どの学習データがどの部分に影響を与えたのかを追跡する“モデル監査ログ”や、“バージョン管理”をおこなうことで、問題発生時に対応しやすくなります。
AIの学習データの制限に関する技術的な措置
AIの学習データをアーキテクチャ型の制約を課することによるリスク低減措置としては、次のようなものが挙げられます。
フィルタリング機能の導入
海賊版や著作権侵害物の混入を防ぐため、機械的に権利保護対象コンテンツをブロックする技術的措置(フィルタリング)を組み込む方法が検討されています。
すでに一部のプラットフォームではハッシュ値などを使い、アップロードされたデータとの照合をおこなう仕組みが存在します。
ライセンスチェック機能
「クリエイティブ・コモンズ(CC)ライセンスの種類」「商用利用の可否」「改変許可の有無」などを自動的に判別し、許容範囲を逸脱するデータの学習を排除するフローを技術的に実現することが、アーキテクチャ型規制に対応するうえで重要です。
海賊版サイトを学習データから除外すること
海賊版サイトを学習データから遮断する措置を講じることも、重要なリスク低減措置であると考えられます。
例えば次のような方策が考えられるでしょう。
海賊版サイトのリスト化・アクセス遮断
業界団体や権利者団体から提供される「海賊版サイト情報」やブラックリストを活用し、該当サイトへのスクレイピングや自動収集を技術的にブロックします。
例えば、スクレイピングのURLリスト管理システムを導入し、ブラックリストに登録されたドメインからは一切データを取得しないよう設定します。
クローラーバッチの事前検証と定期監査
ウェブクローラー(スクレイパー)を実行する前に、クローリング先のサイトやAPIが正当なライセンスを提供しているかをチェックするプロセスを開発時のシステムに組み込みます。
また、クローリング完了後も、取得データをサンプリングして人為的に確認し、海賊版サイト由来のコンテンツが混ざっていないかを監査するルールを設定します。
学習データと類似性のある出力を防止するための技術的な措置
これには、パラメーター調整の過程で個々の学習用データとしての原著作物の個性を希釈化するような措置を講じることなどがリスク低減の方向性として考えられます。
例えば、複数の学習モデルをアンサンブル化し、それぞれ異なる学習パラメーターでデータを取り込む例です。
これは、複数の異なるAIモデルを同時に活用し、それぞれの出力や特徴を組み合わせることを指します。
具体的には、モデルAとモデルBに別々のデータセットを学習させたり、同じデータでも学習パラメーターを変えて複数モデルを作ったりして、それぞれの推論結果を合成します。
こうすることで、単一モデルが特定の学習データに過度に依存するリスクを軽減でき、全体の出力から特定原著作物の個性が強く表れにくくすることが期待できるでしょう。
学習データの出所や学習プロセスの透明化・情報提供
学習データの収集・管理プロセスの明確化とドキュメンテーションとして、次のようなリスク低減措置が考えられます。
データソースの特定・管理
EUの大型言語モデル規制に代表されるように、「どのようなデータを、どのサイトから、どんな許諾のもとで収集したのか」を明らかにすることが求められています。
収集した学習データの出所やライセンス状況が不透明だと、後々規制当局や権利者から問題を指摘されるリスクが高まります。
利用方法の説明責任
収集データがAIプロダクト開発に使われる“目的”や“範囲”をドキュメント化し、必要に応じて外部に開示できるようにしておくことが望ましいです。
今後、規制法案の進展に伴い、当局に対して開発プロセスを報告する義務が生じる可能性があります。
具体的には、サービスの利用規約や技術ドキュメントに「このモデルはどのようなデータで学習したか」「なぜこの出力が得られたか」を簡易に説明する機能を設けるなどの対応が想定されます。
契約書・利用規約の更新
アーキテクチャ型規制が法制化されると、契約書や利用規約にも「データ使用方法の制限」や「透明性に関する条項」を反映させる必要が出てきます。
これにより、データ提供元やユーザーとの間でリスクを適切にシェアできる体制を整えることが肝要です。
AIと学習データに関し弁護士に依頼する必要性3つ
AIと学習データに関する法律上の論点・イシューに対しては、弁護士を活用して専門的知見やアドバイスを受けながら解消してく必要性があります。
その理由について、3つの観点から解説します。
法領域としての先進性
AIと著作権が交わる分野は、まだ判例やガイドラインが十分に確立されていないため、法律面での解釈や適用基準が流動的です。
従来の著作権法はテキストや画像などの一般的な創作物を想定していた一方、大規模言語モデルや生成AIなどは、それまでの技術常識を覆す高速な進化を遂げています。
その結果、法解釈自体が新たな地平を切り開く可能性を秘めており、先例のない論点や契約スキームが今後増えることが予想されます。
技術の発展と法規制に常にすき間があること
テクノロジーの進歩はきわめて速く、特にAI分野では革新的な手法やアルゴリズムが毎年のように出現します。
ところが、法律は制定や改正までに数年単位での時間がかかる場合があるなど、運用の実態を的確に把握した上で、法的に整理すべき論点や課題を整理してから成文化するまでにタイムラグが生じるのが常です。
そのため、開発者や企業が想定していないトラブルが起きやすく、既存の法規制がうまく適合しない「グレーゾーン」が次々と生まれるという課題があります。
専門性の高さ
AI技術と著作権をめぐる問題では、著作権法だけでなく、契約法、個人情報保護法、国際的なデータ移転規制など多岐にわたる法領域の知識が求められます。
さらに、大規模データセットの収集やモデル開発には、開発工程やアルゴリズム構造など技術的背景の理解も欠かせません。
こうした複合的な知見を組み合わせなければ、企業のリスクを最小限に抑え、安全かつ効果的なAI活用を実現するのは難しいのです。
まとめ
AIの開発・学習段階で利用される大量のデータは、開発者にとっては「モデル精度を高めるための資源」であり、法務担当にとっては「潜在的な著作権侵害リスクの塊」にもなり得る複雑な存在です。
日本の著作権法第30条の4によって、情報解析を目的とした複製行為が一定範囲で認められていますが、非享受目的や権利者の利益を不当に害しないという条件を慎重に満たす必要があります。
また、学習データのソース選択、モデルが出力する内容の管理、海外法規制への対応など、多岐にわたるリスクマネジメントが求められます。
とりわけ、AIエンジニアリングのプロセス(データ収集→前処理→学習→検証)と法的視点が連携することで、企業は将来的な訴訟リスクを大幅に低減できます。
本記事で紹介したような5つのリスク軽減策(技術的フィルタリングや透明性確保など)を導入し、必要に応じて弁護士などの専門家に相談する体制を早めに整えておきましょう。
AI技術は日進月歩で、法制度も流動的に変化しています。
今後も文化庁や海外当局から新たな指針や規制案が発表される可能性が高く、エンジニアリングと法務の両面から常にアップデートをおこないながら、安全かつイノベーティブなAIプロジェクトを推進していくことが重要といえます。
弁護士に問い合わせる