Внутри компании мы запустили образовательную программу с лекциями и семинарами от Романа Таранова. Занятия рассчитаны на всех — от менеджеров и проджектов до разработчиков и руководителей. Этот цикл не просто повышает квалификацию, но и помогает глубже понять ИИ. Важно не только изучить модные термины, а осознать, где и как их использовать, чтобы приносить клиентам реальную выгоду.
Мы решили, что этот материал слишком полезен, чтобы оставлять его только для внутренних встреч. Поэтому — ловите первую часть!
Термин «искусственный интеллект» вводит в заблуждение. Он вызывает ложные ассоциации, особенно в тех странах, где это выражение переведено буквально. В английском языке термин звучит как artificial intelligence, не intellect. Все -таки по смыслу они имеют разное значение.
Интеллект, в своем истинном понимании, — это способность генерировать новое, не полагаясь на уже существующие знания. Однако, когда мы говорим о artificial intelligence, мы на самом деле говорим о системах, которые обучаются на данных и могут адаптироваться к изменяющейся среде. Это не творческое мышление, а возможность принимать решения на основе большого количества уже известных данных.
Ключевая особенность подобных систем — их способность к адаптации. Каждая модель ИИ обладает «окном адаптации» — диапазоном, в котором изменения данных не разрушают ее работу. Именно в этом заключается её сила: она способна подстраиваться к изменяющимся условиям и продолжать функционировать эффективно.
Этот момент адаптации часто упускают из виду, но для нас он крайне важен. Мы думаем не только о том, как алгоритм обучается и выдает результаты, но и о том, как обеспечить его стабильную работу в реальных условиях продакшена, минимизируя необходимость вмешательства человека.
История искусственного интеллекта началась не вчера — технологии ИИ появились ещё в 1956 году. Но на тот момент всё оставалось на уровне теории: вычислительных мощностей просто не хватало, чтобы работать с большими объемами данных. А без этого ИИ был почти бесполезен.
Но не только железо тормозило развитие. Технологиям не хватало валоризации — они не находили реального применения. Сравните: в 1986 появилась первая беспилотная машина, и только в 2002 реально используемый в хозяйстве робот-пылесос. Для запада реальное применение технологий в жизни крайне важно. Нет бизнес-ценности — нет финансирования.
Теперь всё изменилось. Мощности подоспели, и реальные кейсы применения нашлись. Именно это и вызвало современный бум ИИ. Сегодня технологии повсюду, а на рынке труда растет спрос на специалистов по ИИ, биг дате и машинному обучению — в топе уже 4-5 профессий на HH связаны с этими направлениями.
Данные — это топливо для моделей ИИ, но их создание — не самое трудоемкое. Самый «мясной» процесс — это их подготовка. Pipeline начинается с их обработки, очистки, преобразования данных через feature engineering. Эта работа может занимать до 80% времени проекта, ведь результат напрямую зависит от качества исходных данных.
Моделей, которые можно использовать в задачах машинного обучения, не так уж и много. И большинство стандартных бизнес-кейсов можно закрыть простыми методами будь то линейная или логистическая регрессия. Модель сама по себе — это инструмент. Принципиальный вопрос: откуда модель будет черпать информацию? Как определить тренды, аномалии, и то, как именно бизнес-процесс должен быть оптимизирован?
Вопрос всегда в данных. Хорошо подготовленные данные могут сделать самую простую модель невероятно эффективной, и наоборот — если данные грязные, ни одна сложная модель не спасет ситуацию. Garbage in — garbage out. В AI проектах важно не только правильно выбрать модель, но и в первую очередь подготовить данные, чтобы модель вообще смогла что-то понять и выдавать адекватные результаты.
В качестве примера возьмем банковские транзакции. Допустим, у нас есть клиент, и мы видим его покупки: в магазине, на заправке, в киоске. На первый взгляд, это просто списки транзакций, и многие бы оставили их так, как есть. Но чтобы построить качественную модель, нужно пойти глубже и использовать feature engineering — процесс создания новых признаков на основе имеющихся данных.
Например, можно вытащить тренды расходов клиента по дням недели: сколько он тратит по понедельникам, как меняется баланс в конце месяца, как часто происходят крупные транзакции. Это — те самые скрытые зависимости, которые вручную определить сложно, но которые могут значительно улучшить точность моделей. Один лист транзакций может превратиться в десятки новых признаков, которые дадут модели гораздо больше контекста и позволят «понять» поведение клиента на новом уровне.
После того как мы нагенерировали фичи (новые признаки), на основе которых будет обучаться наша модель, данные структурируются в ABT — Analytical Base Tables. Это огромные плоские таблицы, которые выступают источником информации для обучения модели
Модель, обученная на таких данных, может использоваться для предсказаний на основе новой информации.
Например, у вас появился новый клиент, и на основании его первых нескольких транзакций модель уже сможет сказать, когда и какие банковские продукты ему предложить. В ритейле этот подход помогает формировать программы лояльности или сегментировать клиентов настолько детально, что можно выделить даже покупателя в конкретном районе с определенными предпочтениями.
Из года в год появляется множество новых инструментов, упрощающих процесс обработки данных. Сегодня можно использовать языковые модели (LLM) для генерации данных или работы с недостающими данными. Например, небольшая выборка может быть дополнена сгенерированными данными для улучшения качества модели.
Однако несмотря на новые инструменты, автоматическая обработка данных по-прежнему имеет свои ограничения. Контекст — это то, что еще не может полностью понять машина. Выпавшие данные могут быть просто аномалией, а могут сигнализировать о киберугрозе, и определить это без участия человека все еще сложно.
Ждем на разборе следующей лекции через неделю!Наши кейсы, проекты и новости ждут вас в Telegram канале ITQuick. Также у нас есть отдельный канал с вакансиями ITQuick вакансии и канал о развитии нового продукта JUMSE App.