Открытые языковые модели: Стратегия цифрового суверенитета Европы

Проект OpenEuroLLM нацелен на создание открытых языковых моделей для всех языков ЕС. Он включает 20 организаций под руководством экспертов из Чехии и Финляндии, и его бюджет составляет 37,4 миллиона евро. Несмотря на его амбиции, некоторые эксперты сомневаются в эффективности большого числа участников. В проект вовлечены университеты, исследовательские учреждения и частные компании, а его основная задача заключается в обеспечении прозрачности и разнообразия языков.
На фоне обсуждений о цифровом суверенитете в Европе, новость о запуске программы OpenEuroLLM привлекла внимание. Этот проект, разработка которого начнется в ближайшее время, нацелен на создание действительно открытых языковых моделей, поддерживающих все 24 официальных языка ЕС, а также языки стран-кандидатов, таких как Албания. Команда проекта состоит из 20 организаций, возглавляемых Яном Хаджичем из Праги и Петером Сарлином из финской AI-лаборатории Silo AI.
OpenEuroLLM отражает усилия Европы повысить цифровую независимость, смещая акцент на локальные решения. Как и другие большие игроки в облаке, OpenAI активно инвестирует в локальную инфраструктуру для обеспечения сохранения данных в Европе. Европейский Союз также заключил сделку на создание спутниковой системы в 11 миллиардов долларов, чтобы конкурировать со Starlink от Илонa Маска.
Хотя бюджет для создания моделей составляет 37,4 миллиона евро, финансирование со стороны Программы цифровой Европы составляет лишь небольшую долю от инвестиций крупных компаний. Основными затратами будут вычислительные ресурсы, и партнеры проекта включают суперкомпьютерные центры EuroHPC в Испании, Италии и других странах, которые обладают бюджетом около 7 миллиардов евро.
Однако количество участников вызывает вопросы о достижимости его целей. Анастансия Стасенко, соучредитель компании Pleias, сказала, что “разрастающийся консорциум из более чем 20 организаций” может не иметь той фокусировки, что у небольших, целенаправленных команд, таких как Mistral AI и LightOn, которые несут ответственность за свои решения.
Проект OpenEuroLLM имеет определенное преимущество благодаря предшествующему проекту HPLT, который разрабатывает высокопроизводительные языковые технологии. Однако Хаджич считает, что их работа поможет как в сборе данных, так и в технической экспертизе. Он ожидает, что первая версия будет готова к середине 2026 года, а финальные итерации будут завершены к 2028 году.
В числе участников проекта – исследователи из Чехии, Нидерландов, Германии и других стран, но французская компания Mistral не приняла участия в проекте. Хаджич пытался начать переговоры с Mistral, но результатов это не дало. Однако, согласно планам, команда OpenEuroLLM надеется привлечь новых участников, финансируемых ЕС.
Основная задача – создать “серии базовых моделей для прозрачного ИИ в Европе” и сохранить “лингвистическое и культурное разнообразие” всех языков ЕС. Это обернется созданием многоязычной модели LLM, а также ее уменьшенных версий для более быстрых приложений.
Обсуждения о «истинном» открытом исходном коде также важны для OpenEuroLLM, поскольку проект стремится не только к открытости моделей, но и к открытым данным и весам. Хаджич отметил, что “цель состоит в том, чтобы иметь все открытым”, но придется делать некоторые компромиссы.
Критики замечают, что OpenEuroLLM повторяет цели проекта EuroLLM, уже запущенного ранее. Андре Мартинс из Unbabel выразил надежду на сотрудничество между этими проектами, чтобы избежать избыточного дублирования. Хаджич назвал эту ситуацию “неприятной”, но надеется на сотрудничество.
В условиях растущей конкуренции среди AI инициатив, такие как DeepSeek, финансирование OpenEuroLLM в первую очередь охватывает людей и инфраструктуру. Сарлин заявил, что у проекта есть бюджет, позволяющий покрывать затраты на вычислительные ресурсы EuroHPC, которые вложили миллиарды в AI и вычислительную инфраструктуру.
OpenEuroLLM ориентирован не на создание конечного продукта, а на моделирование и создание открытых исходных моделей, которые составят инфраструктуру для европейских компаний. Хаджич оптимистично настроен на то, что при наличии устойчивого проекта, все ключевые компоненты будут находиться в Европе, подчеркнув, что это будет позитивный результат, даже если они не станут лидерами по качеству моделей.
Original Source: techcrunch.com