AIは創作物を無断で学習しても許されるのか──。この問いは、生成AIの進化と共に業界全体に重くのしかかる根源的な課題となっている。著作権侵害を主張する訴訟が相次ぎ、AI開発企業は防衛的にそのデータ利用の詳細を固く閉ざすようになった。この「透明性の冬」とも言える状況が、健全な研究の進展を妨げていると懸念する声は少なくない。 そんな中、AI業界の分水嶺となる可能性を秘めた画期的なプロジェクトが姿を現した。 非営利の研究団体EleutherAIと、トロント大学、Hugging Face、Allen Institute for AI (AI2)など多数の組織からなる共同研究チームは、「Common Pile v0.1」と名付けられた、8テラバイト(TB)にも及ぶ巨大なテキストデータセットを公開した。その最大の特徴は、パブリックドメインおよびオープンライセンスのコンテンツのみで構築されている点にある