Как новая лицензия CCAI может заставить ИИ-компании стать прозрачными

Современный генеративный искусственный интеллект — это сложная конструкция, возведенная на фундаменте открытого программного обеспечения. Библиотеки, фреймворки и колоссальные массивы данных, которые годами создавались сообществом энтузиастов FOSS, стали основным «топливом» для обучения нейросетей. Однако, в отличие от традиционного софта, результат этого обучения — закрытые модели — почти никогда не возвращаются сообществу в открытом виде. Группа исследователей решила исправить этот дисбаланс, предложив новый юридический механизм под названием Contextual Copyleft AI License, или CCAI.

Суть проблемы, с которой пытаются бороться ученые, в индустрии называют «псевдооткрытостью». Крупные ИИ-компании часто рекламируют свои продукты как открытые, публикуя лишь веса моделей или маркетинговые описания. При этом критически важные компоненты — обучающие данные, архитектура, алгоритмы фильтрации и методы дообучения — остаются закрытыми. Для внешнего мира продукт выглядит дружелюбным к сообществу, но проверить его реальное происхождение или ограничения практически невозможно. Пользователи и эксперты получают «черный ящик», который невозможно полноценно изучить или воспроизвести.

Авторы инициативы — Грант Шэнклин, Клаудио Новелли и их коллеги — предлагают применить к ИИ логику «копилефта», хорошо знакомую разработчикам свободного ПО. Суть проста: если вы создаете производную работу на основе открытого кода, то и результат вашего труда должен оставаться открытым. Юридически это выражается в вопросе: можно ли считать нейросеть производной работой, если она обучена на открытых библиотеках?

Если эта логика закрепится в праве, разработчикам ИИ придется раскрывать архитектуру моделей и состав обучающих данных в обмен на право использования открытых материалов. Это лишит компании возможности брать наработки сообщества, обучать на них закрытые коммерческие системы и оставлять авторов исходного кода без понимания того, как именно их работа повлияла на итоговый продукт.

Ключевым препятствием здесь выступает американская доктрина добросовестного использования (fair use). Если суды в конечном счете признают обучение нейросетей добросовестным использованием, лицензиям будет крайне сложно навязать разработчикам какие-либо дополнительные обязательства. Однако если юридический статус обучения изменится, концепция CCAI станет мощным инструментом контроля. В этом случае владельцы кода смогут заранее прописывать условия, на которых их интеллектуальная собственность может быть включена в обучающие наборы.

Безусловно, критики концепции указывают на риски безопасности. Генеративный ИИ способен создавать вредоносный контент, поэтому полная открытость вызывает много вопросов. Исследователи отвечают на это тем, что их лицензия не отменяет действующие правила безопасности, а лишь дополняет их. По их мнению, полная прозрачность устройства модели как раз помогает экспертам быстрее находить уязвимости и пресекать опасное использование технологий.

Конечно, в ближайшее время такая лицензия вряд ли станет обязательным стандартом. Но сама постановка вопроса — это попытка перенести правила свободного мира в новую цифровую реальность. Сейчас спор об ответственности ИИ-компаний перед FOSS-сообществом находится в зачаточном состоянии, но он неизбежно перейдет из университетских статей в залы судов и кабинеты регуляторов. И именно от итогов этого спора зависит, станет ли будущий искусственный интеллект общим достоянием или навсегда останется закрытым ресурсом в руках узкого круга корпораций.