После вопроса Президента: чем на самом деле является KazLLM и зачем она нужна Казахстану

Сегодня на расширенном заседании Правительства Глава государства обратил внимание на ситуацию с казахстанской языковой моделью KazLLM, передает Politico.kz.

Касым-Жомарт Токаев задал Заместителю Премьер-Министра - Министру искусственного интеллекта и цифрового развития Жаслану Мадиеву серию жестких вопросов о будущем национальной языковой модели KazLLM.

Токаев потребовал объяснить, почему, несмотря на официальный запуск, интерес к отечественному ИИ остается низким, а граждане продолжают выбирать зарубежные сервисы вроде ChatGPT, и что именно делает министерство, чтобы исправить ситуацию и довести KazLLM до уровня востребованного, массового продукта.

Как показывают обсуждения в социальных сетях, о том, что такое KazLLM, как она работает и чем может быть полезна, действительно знают единицы. На фоне громких новостей о запуске «казахстанского ChatGPT» проект пока остается нишевым и мало понятным для широкой аудитории. Поэтому мы решили подробно разобраться, что собой представляет KazLLM, кто ее разрабатывает, какие задачи она уже решает и почему вокруг нее развернулась такая дискуссия.

Итак, чтобы разобраться во всем, мы обратились к Kazakhstan AI Country Report – первому комплексному обзору рынка искусственного интеллекта в Казахстане, который описывает государственную стратегию, цифровую и вычислительную инфраструктуру, человеческий капитал, экосистему стартапов, венчурные инвестиции и отраслевые кейсы применения ИИ. Официальная презентация данного доклада состоялась 28 января этого года в столице и найти вы его можете по ссылке.

Что такое языковая модель и что она из себя представляет?

Языковая модель – это программа на основе искусственного интеллекта, которая «понимает» и генерирует текст на человеческом языке. Она обучается на огромном массиве текстов, чтобы уметь продолжать мысли, отвечать на вопросы, переводить, суммировать и объяснять информацию.

Проще говоря, это цифровый «собеседник» и «помощник по тексту», который может писать письма, помогать с кодом, объяснять сложные вещи простыми словами и работать внутри разных сервисов – от госуслуг до образовательных платформ.

История создания KazLLM

KazLLM была разработана по прямому поручению Главы государства как национальная большая языковая модель для развития искусственного интеллекта на казахском языке.

KazLLM стала своего рода вторым этапом развития казахстанской экосистемы ИИ: если в 2019-2023 годах основное внимание уделялось подготовке кадров и запуску образовательных инициатив, то в 2024 году страна перешла к созданию собственных технологических продуктов на основе этих знаний.

Релиз первой казахской большой языковой модели ознаменовал переход от «учимся ИИ» к «создаем ИИ» и показал, что локальные команды способны не только перенимать зарубежный опыт, но и разрабатывать фундаментальные модели, адаптированные под казахский и русский языки и местный контекст.

11 декабря 2024 года национальная языковая модель KazLLM была представлена Президенту.

Кто создавал KazLLM?

Согласно данным из открытых источников, ведущую роль в проекте сыграло Министерство науки и высшего образования, которое организовало работу по созданию корпуса казахского языка для модели совместно с Институтом умных систем и искусственного интеллекта при Nazarbayev University (ISSAI NU), а также рядом научных организаций и вузов.

Отмечается, что над наполнением корпуса трудились свыше 140 ученых и сотрудников из 26 ведущих научных институтов и университетов страны. Они готовили большие массивы текстов на казахском языке по 115 областям знаний – от экономики, финансов и математики до истории, биологии, медицины и технологий.

Так, Казахский национальный университет имени аль‑Фараби отвечал за данные по философии, этике, PR, астрономии, астрофизике и ИТ, Институт математики и математического моделирования – за математические направления, Институт истории и этнологии имени Ш.Уалиханова – за исторический контент, а медицинские университеты формировали корпус по медицине.

Кроме того, в разработке самой модели участвовали индустриальные партнеры: Beeline Казахстан и его ИТ‑компания QazCode, а также Astana Hub, при координации Министерства цифрового развития, инноваций и аэрокосмической промышленности РК (ныне – Министерство искусственного интеллекта и цифрового развития).

Остановимся на ключевом игроке данного проекта – Институте умных систем и искусственного интеллекта ISSAI.

Основанный при Nazarbayev University в 2019 году и получивший автономный статус в 2024‑м, ISSAI сегодня считается одним из лидеров в области исследований искусственного интеллекта в Казахстане. Институт опубликовал более 120 научных статей и создал крупнейший в Центральной Азии репозиторий ИИ‑разработок с открытым исходным кодом. В 2024 году именно команда ISSAI представила первую казахстанскую большую языковую модель KazLLM, а затем выпустила целый ряд генеративных моделей, адаптированных под казахский язык, локальный культурный контекст и менталитет пользователей.

ISSAI сегодня выступает «ядром» казахстанской ИИ‑экосистемы: у института есть собственные мощные серверы NVIDIA DGX для обучения моделей, команда исследователей, дата‑сайентистов и студентов, а также крупнейший в Центральной Азии открытый репозиторий данных и моделей. На этой базе сначала развивались классические решения глубокого обучения — от машинного перевода и распознавания речи до биометрии, медицинской визуализации и анализа спутниковых снимков, а затем началась «эра генеративного ИИ» с выходом KazLLM и линейки специализированных моделей.

Что в итоге с KazLLM?

Согласно данным из доклада по развитию ИИ в Казахстане, ISSAI выстроил целую экосистему вокруг KazLLM:

Oylan – семейство казахстанских мультимодальных моделей (включая более новые версии Oylan2, Oylan2.5, Oylan3), которые умеют работать не только с текстом, но и с изображениями и аудио.

Beynele – линейка моделей (Beynele и улучшенная Beynele 2), которые по текстовому описанию генерируют и редактируют изображения с учётом казахстанского культурного контекста.

MangiSoz – семейство речевых моделей (MangiSoz, MangiSoz2, MangiSoz 2.1, MangiSoz 3), предназначенное для распознавания, перевода и озвучки речи и текста на нескольких языках.

TilSync – сервис (с более новой версией TilSync2), который во время выступлений и трансляций создаёт субтитры и перевод в режиме реального времени.

Mangitas – это серия защищённых ИИ‑серверов, которые ISSAI разработал специально для госструктур и крупных компаний, где критично важно, чтобы данные не уходили в зарубежные облака. По сути, это «железо под ключ» для запуска KazLLM и других моделей внутри закрытых сетей: Mangitas 01 заточен под безопасную работу с речью и переводами (на базе MangiSoz), а Mangitas 02 позволяет развернуть целый ИИ‑хаб – с Oylan, Beynele, TilSync и речевыми сервисами – в формате собственной, суверенной инфраструктуры искусственного интеллекта.

Выводы?

Казахстан в данном случае сделал не «еще одну нейросеть», а зафиксировал минимально необходимый базовый уровень: собственные данные, инфраструктуру и модели под казахский язык и локальный контекст. Это не снимает вопросов к качеству и удобству KazLLM, но дает стране хотя бы техническую возможность развивать ИИ‑сервисы на своих условиях, а не полностью зависеть от доступа к зарубежным платформам и их правил.

ИИ министр Касым-Жомарт Токаев KazLLM Жаслан Мадиев ChatGPT Kazakhstan AI Country Report Языковая модель Казахстанский ИИ

После вопроса Президента: чем на самом деле является KazLLM и зачем она нужна Казахстану

Сегодня на расширенном заседании Правительства Глава государства обратил внимание на ситуацию с казахстанской языковой моделью KazLLM, передает Politico.kz.

Последние новости