http://www.ras.ru/digest/showdnews.aspx?id=5b1393a8-8850-47eb-80ad-3c24485ab5db&print=1© 2024 Российская академия наук
Каждой отрасли по ИИ
История развития технологии в современном понимании корнями уходит в середину прошлого века. Первая компьютерная нейросеть, или модель машинного обучения, была разработана в 1957-м, но основная работа над ними началась в 1980-х, после появления и распространения первых графических ускорителей. Очередной важный этап наступил в 2010-х, когда рост вычислительных мощностей и количества доступных цифровых данных позволил ученым и разработчикам развить концепцию глубокого обучения.
Именно на этом этапе ИИ начал массово внедряться. Сначала – на уровне цифровых сервисов, о наличии нейросетей в которых никто и не догадывался (например, поиск Google и «Яндекс»). Сегодня же ИИ-сервисы стали массовыми и легко интегрировались в жизнь, рассказывает руководитель исследовательских проектов VisionLabs Александр Паркин. «Например, поменялась концепция взаимодействия с большими языковыми моделями – теперь любой желающий независимо от профессии может использовать ChatGPT для решения своих задач. Также повсеместно применяются технологии компьютерного зрения: разблокировка смартфона, оплата по лицу в транспорте и ритейле», – приводит примеры собеседник «Профиля».
Технология задействуется для решения самых разных задач во все большем числе отраслей: промышленность, телеком, медицина, образование, наука... Максим Еременко, вице-президент и директор департамента развития технологий искусственного интеллекта и машинного обучения Сбербанка, говорит, что ИИ можно использовать во всех отраслях экономики и в перспективе так и будет. «Наиболее активными пользователями ИИ среди отраслей в России, как и в остальном мире, являются финансы, онлайн-ритейл и отрасль IT. В России практически все топовые банки в той или иной мере внедряют ИИ в свои процессы. Отрасли со средним проникновением ИИ в бизнес-процессы: сельское хозяйство, промышленность и здравоохранение».
Эту точку зрения разделяет руководитель направления синтеза и распознавания речи в компании «Наносемантика» Григорий Шершуков. По его словам, «ИИ применяется и внедряется в большое количество сфер – от смартфонов до управления космическими полетами, как, например, управление марсианскими роверами в проектах Ingenuity и Curiosity. ИИ может быть реализован в различных модулях, которые управляют или анализируют данные в корпорациях».
Ожидания от внедрения технологии высокие уже не первый год. Свежий опрос Института искусственного интеллекта университета «Иннополис» показывает, что представители бизнеса и научных организаций, как и несколько лет назад, рассчитывают с помощью ИИ: повысить рабочую продуктивность, экономить время, оптимизировать рабочие процессы, улучшить процесс принятия решений, оптимизировать расходы. Аналитики PwC прогнозируют, что общий финансовый эффект от применения технологии к 2030 году составит ни много ни мало $15,7 трлн. Объем рынка ИИ к 2030-му достигнет примерно $2 трлн – это уже прогнозы Fortune Business Insights.
Как устроен «мозг» ИИ
Любая нейросеть устроена по принципу слоев. Минимум их три: входной (получаемые данные), скрытый слой (где происходят вычисления) и выходной (результат). Многие нейросети имеют несколько скрытых слоев, свыше десятка – это уже относится к глубокому обучению. Такие нейросети позволят находить больше взаимосвязей во входных данных и давать более совершенный результат.
Каждая связь между нейронами на разных слоях имеет свой вес – значимость текущего параметра по сравнению с остальными. Изменения весов позволяют менять выходной результат: если он ошибочный (например, собака на фото определяется как «кошка»), весы корректируются – человеком или другой, правильно настроенной нейросетью (метод обратного распределения ошибки). Собственно, такая настройка нейросетей в широком смысле и называется машинным (или глубоким, если слоев в нейросети много) обучением.
Алгоритмы для принятия решений
Нейросети сегодня применяются практически в любом цифровом сервисе или продвинутом устройстве. С точки зрения функциональности нейросети можно условно разделить на два типа: первые работают только с «готовыми» данными, вторые – генеративные нейросети – контент создают.
Одной из главных задач нейросетей первого типа становится классификация (отнесение данных к определенному типу), а также ее частные случаи. Результатом работы ИИ, как правило, становятся рекомендации для пользователя и специалиста. В повседневной жизни такое можно встретить, например, в цифровых кинотеатрах, музыкальных стримингах и книжных приложениях, где постоянно предлагается контент, который «может быть вам интересен». Это нейросети изучили уже просмотренное, прослушанное и прочитанное, классифицировали и на основании анализа формируют предложения.
Такая технология ложится в основу систем поддержки принятия решений, и одним из самых ярких примеров здесь является медицина, где ИИ, по мнению Григория Шершукова, играет самую важную и прорывную роль для людей. «Он применяется для анализа медицинских изображений, предсказания развития заболеваний, определения потребности в определенных процедурах и даже помогает врачам предложить оптимальное лечение в рамках протоколов. Сегодня ИИ уже помогает докторам в диагностике сложных случаев заболеваний». Ключевую роль такие системы сыграли в пандемию COVID-19, когда не хватало врачей и ИИ помогал определять симптомы болезни на снимках, экономя тем самым время.
Системы поддержки принятия решений на основе ИИ стали популярны и в других отраслях. В финансовом и многих других секторах ИИ строит прогнозы развития рынков, анализирует кредитоспособность организации или человека. Вот, например, Сбербанк ожидает, что до конца текущего года его общая прибыль, вызванная внедрением ИИ в различные процессы, превысит 350 млрд рублей (если считать начиная с 2020-го). «Компании, применяющие ИИ, давно поняли, что продукты и сервисы на основе ИИ становятся более производительными и качественными, – объясняет Максим Еременко. – ИИ помогает улучшать потребительские характеристики продуктов и сервисов, клиентский опыт, развивать клиентоцентричный подход, формировать индивидуальные предложения для клиентов».
Последние несколько лет активно разрабатываются системы, в которых ИИ должен заменить человека даже на уровне принятия решений. Самый яркий пример – беспилотные автомобили, в которых нейросети используются для анализа и прогнозирования ситуации на дороге по большому количеству признаков: другие машины, пешеходы, сигналы светофоров, знаки, разметка… На основании обработки данных алгоритм «ведет» автомобиль вместо человека. И все это происходит постоянно и непрерывно.
Обычному гражданину нейросети доступны в любой момент, не нужны даже цифровые сервисы – достаточно взять в руки смартфон. Если в нем настроена разблокировка по лицу, это уже работа ИИ: он сопоставляет изображение с тем, что хранится в памяти, и, если видит совпадение, запускает интерфейс. Целый ряд ИИ-алгоритмов используется при съемке фото и видео: устранение шумов, «подсветка» в ночном режиме, повышение «сочности» и качества изображения на миниатюрной (по сравнению с полноценными фотоаппаратами) матрице и т. д. Нельзя обойти вниманием и голосовых ассистентов, таких как «Алиса», «Маруся» и «Салют» в России; Siri и Alexa в США. В таких помощниках также действует ряд ИИ-алгоритмов: для определения голоса, вычленения команд, формирования ответа используются разные нейросети.
С конца 2010-х в девайсы с ИИ, включая смартфоны, умные колонки и т. д., стали устанавливать нейропроцессоры (NPU), что существенно ускорило работу нейросетей, расширило их функционал и позволило работать без подключения к интернету. В Gartner подсчитали, что в 2023 году глобальные доходы компаний от производства ИИ-чипов могут превысить $53 млрд, а в 2027-м эта цифра будет вдвое больше – $119,4 млрд.
Два столпа ИИ
Причиной стремительного развития ИИ именно в 2010-е стало общее развитие технологий: у разработчиков и ученых появились два ключевых инструмента – вычислительные мощности и большие данные.
Чем сложнее нейросеть и чем больше нейросетей задействовано для задачи, тем более мощные чипы необходимы. В смартфонах ИИ сравнительно простой, поэтому хватает миниатюрного NPU. Беспилотному авто нужны уже мощные компьютеры: такие ездят в багажнике каждого из них. Крупные IT-компании для работы с ИИ выделяют суперкомпьютеры – они есть у «Яндекса», «Сбера», а в сентябре еще один был запущен в МГУ.
Та же история с данными: чем сложнее нейросеть, тем больше информации для обучения ей требуется. Алгоритмам в беспилотном транспорте нужны тысячи километров наката (точнее, записей и данных с поездок). Другим нейросетям также «скармливаются» гигабайты репрезентативных текстов, изображений, видео: только так они смогут выдавать корректные результаты.
Генерация всего
Существенный вклад в мировую экономику, о котором говорили аналитики PwC, должны внести именно генеративные нейросети. Об этом в июне писали и эксперты McKinsey, отмечая четыре области, где сильнее всего проявляется этот тип ИИ (примерно 75% общего эффекта): взаимодействие с клиентами, маркетинг и продажи, разработка ПО, R&D (исследования и разработки). А среди наиболее подверженных изменениям отраслей аналитики назвали банковское дело (дополнительный эффект от $200 млрд до $340 млрд ежегодно) и ритейл (от $400 млрд до $660 млрд в год).
Функциональность генеративного ИИ определяется просто: создание нового контента (текстов, изображений, аудио, видео). Ключевая задача в том, чтобы контент генерировался «осмысленно» и успешно решал конкретную задачу, а не был бессмысленным набором символов и образов. Для этого нужно на порядок больше входных данных (чтобы нейросети научились понимать контекст, особенности требуемой стилистики и т. д.), а также значительное число параметров, с которыми ИИ-модель может работать. Например, представленная в начале этого года GPT-4 учитывает до 100 трлн параметров, что количественно (но не качественно) сопоставимо с числом нейронов в человеческом мозге.
Один из ключевых ИИ-лейтмотивов 2023 года – «переизобретение» логики поисковых систем благодаря GPT-нейросетям. Старт тренду дала Microsoft, внедрившая ChatGPT в свой поисковик Bing, после чего началась гонка: Google представила Bard, «Яндекс» – YandexGPT и т. д. Такие нейросети можно попросить помочь с идеей для стартапа, составлением маршрута на карте, формированием меню банкета, и все это – с учетом определенных параметров (сфера стартапа, желаемые достопримечательности на маршруте и другое). Пока генеративные нейросети являются только дополнением, а не заменой привычным сценариям: слишком многое предстоит доработать.
Значимым ответвлением текстовых «генеративок» стали ассистенты для написания кода. В июле этого года GitHub – крупнейший мировой портал для хранения и совместной разработки IT-проектов – представил инструмент Copilot X (дословно – «второй пилот») на основе GPT-4. Он может и написанный код на ошибки проверить, и новый разработчику предложить. В России такой инструмент разрабатывает Сбербанк, «Яндекс» тоже рассматривает эту возможность.
Куда больше шума за последний год наделали нейросети, генерирующие изображения. Их «труды» успели победить на конкурсе художников в августе 2022-го и на международном конкурсе фотографий в апреле 2023-го. Оба случая вызвали скандал и бурное обсуждение роли технологий в современном искусстве. Cosmopolitan в июне представил первую в мире обложку, сгенерированную нейросетью: ее иронично срифмовали с первым шагом человечества на Луне.
Не остается в стороне и более сложный контент. Американская Stability AI, одна из первых представившая генератор изображений Stable Diffusion, в сентябре показала Stable Audio – генератор музыки и звуков на основе текстовых запросов. Другой американский ИИ-разработчик, Runaway AI, представил уже второе поколение своего сервиса генерации видео. Если в Gen-1 для этой задачи нужны были иллюстрации и видеореференсы, то в Gen-2 для получения полноценного видеоряда также достаточно текстового запроса.
Наиболее эффектный результат получается при сочетании работы нескольких генеративных нейросетей. На YouTube, например, популярными стали трейлеры Curious Refuge. Автор реализует вымышленные концепты, при этом видеоряд генерирует ИИ, тексты пишет нейросеть, анимацию создают нейронки, музыка на фоне тоже сгенерирована. Все, что делает человек, – запрашивает у ИИ-сервисов нужный контент и затем сводит полученное воедино (что скоро тоже сможет делать нейросеть).
Чем опасен современный ИИ
Несмотря на то, что ИИ на сегодняшнем этапе – не просто перспективная, но уже активно внедряемая технология с ощутимыми эффектами для бизнеса, она по-прежнему остается спорной с точки зрения возможных рисков.
В частности, опасения вызывают сложности с определением сгенерированного контента (дипфейки) и со слишком высоким влиянием такого контента. Многие профессионалы беспокоятся, что ИИ заменит их на рабочих местах. При этом в отрасли, наоборот, бьют тревогу по поводу того, что нейросетям в некоторых случаях доверяют больше, чем экспертам, – пока о замещении людей нейросетями говорить преждевременно.
В марте был опубликован международный стандарт по ИИ «Руководство по менеджменту рисков», который определяет ключевые аспекты разработки «правильных» алгоритмов: надежность, безопасность, прозрачность, объяснимость, конфиденциальность, непредвзятость. К рискам, отличающим ИИ от «обычного» ПО, относятся в числе прочего сложность прогнозирования побочных эффектов и непредвиденные изменения во время машинного обучения (например, использование искаженных данных при разработке).
Сила, вертикаль и интерактивность
Очевидно, что генеративный ИИ продолжит активно развиваться в ближайшие годы. Александр Паркин из VisionLabs убежден, что одним из основных направлений станет улучшение языковых моделей (наподобие ChatGPT): «Уже сейчас такие наработки есть, и они хорошо работают для пар «текст и изображения», «текст и звук». Но в будущем это будет одна огромная модель, которая хорошо справляется с каждым запросом».
Эти модели будущего называют «сильным», «общим», или «обобщающим» ИИ. По мнению Максима Еременко из Сбербанка, именно такой ИИ станет следующим прорывом: «Его уже можно будет сопоставить по возможностям с человеком. Эксперты сходятся в оценке, что такие технологии могут появиться в ближайшее время благодаря развитию мощных генеративных ИИ-моделей, таких как GPT-4. Это будут мультимодальные и многозадачные модели, которые смогут решать задачи на многих языках, по текстовому описанию создавать картины, видео, рассказы и аудио». Однако Григорий Шершуков из «Наносемантики» уточняет, что для достижения такого уровня развития могут потребоваться новые подходы в разработке, простого улучшения существующих методов будет недостаточно.
Зарубежные визионеры также размышляют о том, что станет новым прорывом в сфере ИИ. Шахар Чен, сооснователь ИИ-компании Aquant, следующим этапом называет вертикальный ИИ. Такие модели, в отличие от горизонтальных, будут ориентированы на конкретные индустрии и лучше смогут решать специализированные задачи, а не «распыляться» на все сразу. Вероятно, примером вертикального ИИ можно назвать Copilot X, сделанный на основе ChatGPT, но обученный на данных по программированию.
Сооснователь DeepMind («дочка» Google и один из ведущих ИИ-разработчиков в мире) Мустафа Сулейман, в свою очередь, весь генеративный ИИ называет лишь фазой на пути к ИИ интерактивному. В будущем, по его мнению, чат-боты смогут не просто отвечать на запросы пользователя, но также взаимодействовать с другим ПО и другими людьми, чтобы решить заданную задачу, что приведет к революции в сфере ИИ.
Наконец, еще одной технологической веткой развития ИИ, о которой «Профилю» рассказал Григорий Шершуков, станет «совершенствование интерфейсов «человек–машина», что улучшит качество взаимодействия людей с ИИ, создаст более естественные и продуктивные взаимоотношения». Такими разработками сегодня занимается несколько компаний, в том числе Neuralink Илона Маска, который объявил о начале отбора парализованных пациентов для тестового внедрения своих нейрочипов. Ведутся подобные изыскания и в России: ученые из Нижнего Новгорода и Калининграда разрабатывают (в том числе с помощью ИИ) нейрочип для ускорения реакций в мозге.