Как навести порядок в хаосе данных: стратегия для бизнеса
Иван Дашкевич"Ватсон, поймите: человеческий мозг — это пустой чердак, куда можно набить всё, что угодно."
Рано или поздно любой бизнес сталкивается с проблемой обработки данных, которые хаотично накоплены и напоминают беспорядочный склад ценных артефактов. Сориентироваться в них без путеводителя практически невозможно. Мы часто работаем с кейсами, где основная сложность заключается именно в неструктурированных данных. Искусственный интеллект помогает решить эту проблему, превращая данные в ваш конкурентный ресурс.
В чем сложность подготовки данных?
У всех компаний они есть, но, как правило, они хранятся в неструктурированном виде. Чем больше компания, тем больше у нее данных, больше экспертизы, и кажется, что проблем с ними не будет. Но на выходе получаем парадокс: данных много, а общая картина не складывается, либо данные не дают инсайтов, не используются на 100 %, из них не извлекается максимум пользы.
Какие есть варианты?
Каждая новая технология, будь то машинное обучение, генеративные модели или интеллектуальные агенты, вызывает ожидания, что вот теперь-то технический прогресс наконец решит проблему хаоса в данных.
Как возникает этот беспорядок? Представьте себе корпоративное хранилище небольшой команды на старте первых проектов. Файлы хаотично складываются на хранение, команда растет, появляются новые коллеги, усложняются процессы, увеличивается клиентская база. И однажды у руководителя возникает вопрос: как управлять всей этой информацией? Можно хранить данные в виде книг знаний, баз, FAQ, и со временем их будет становиться все больше, а форматы будут все более разными, как как всем удобны разные виды хранилищ, документов и таблиц. Хранение данных в разнообразных форматах создает риск их превращения в хаотические артефакты мудрости отдельных команд или даже отдельных сотрудников. Форматы отличаются по удобству, ведь каждый предпочитает свои структуры и подходы.
Похожая ситуация происходит на уровне компаний с дата-хранилищами. Часто ставку делают на новые технологии, надеясь, что они устранят хаос. Однако на практике это не всегда срабатывает. Мы не утверждаем, что у нас есть идеальное решение, но предлагаем взглянуть на проблему под другим углом.
В компании работает команда профессионалов, и каждый из них является экспертом в своем домене. Каждый эксперт владеет значимой информацией о проектах и процессах, но регулярное обновление баз данных — времяемкое занятие, на которое часто нет ни времени, ни ресурсов. Если бы эксперты могли записывать свои знания фрагментами, не задумываясь о форматах и структурах, это значительно упростило бы процесс и повысило ценность хранимой информации.
Такой подход мы и предлагаем: каждый сотрудник как носитель уникальных знаний может поделиться ими. Если многие в компании сделают это, появляется возможность организовать знания эффективно. Мы воплотили этот подход и видим его пользу.
Что мы предлагаем?
Представьте себе корпоративный инструмент, который напоминает твиттер, форум и доску объявлений одновременно. Он создан специально для обмена знаниями среди коллег. ИИ в этой системе помогает упорядочивать информацию и предоставлять ее в удобной форме. Он позволяет легко ориентироваться в хаосе данных, эффективно управлять ими и своевременно обновлять, не отвлекаясь от рабочих задач.
Что в принципе эксперт может зафиксировать в такой системе? Например, он может использовать эту виртуальную доску для организации своего времени и информации. Он может установить список вопросов, с которыми к нему нужно обращаться, указать рабочие часы, даты встреч и важные заметки, чтобы коллеги знали о его текущих проектах. Он также может сообщить договоренности с ключевыми клиентами на момент отпуска, чтобы его проекты не простаивали. Он может расположить там все, что посчитает нужным, в произвольном порядке.
Почему вдруг это стало работать?
Потому что современные технологии позволяют выделять смысловые фрагменты из большого объема данных, которые человеку часто кажутся хаотичными.
Представим каждый факт в виде стикера. Всю информацию о компании можно визуализировать как бесконечную доску со стикерами. Наша технология помогает находить и подсвечивать именно те стикеры, которые вам нужны. Это решение позволяет создать обширное информационное поле, где каждый может делиться своими знаниями в свободной форме.Таким образом мы вовлекаем команду экспертов в процесс формирования альтернативного источника знаний, где можно делиться заметками в наиболее естественном формате. А современные системы отметят и отсортируют важные моменты, что сделает обмен информацией более органичным и доступным для всех. Людям не нужно структурировать эти кусочки знаний - система сама сможет разобраться в представленном ей информационном пространстве.
Преимущества кратко:
1. Сбор человеческой экспертизы: ИИ способен собирать и анализировать знания и опыт сотрудников, создавая ценную базу знаний компании.
2. Экспертиза как ценность: Накопленная экспертиза становится ценным активом компании.
3. Цифровой помощник создает облако знаний, пока вы сосредоточены на более важных задачах. Он организует данные, аккуратно превращая их из хаотического беспорядка в ценный ресурс для вашей команды.
Как это работает технически
Классический Retrieval-Augmented Generation (RAG) разбивает структурированные документы на смысловые сегменты, а затем осуществляет поиск по этим сегментам. Мы предлагаем изначально собирать данные, уже с учетом разделения по смыслам, причем самими специалистами, фиксирующими свои знания и опыт.
Таким образом мы объединяем сильные стороны человека и машины. Мысли проще формулировать естественно, нежели структурировать, особенно если речь идет о больших объемах и форматах. RAG - инструмент, который как раз предназначен для работы с данными: он делит структурированный документ на части и обеспечивает доступ к информации. По кусочкам он прекрасно предоставляет доступ, но ключевым вызовом остается грамотное разбиение документа на сегменты, где смысл сохраняется в каждом "стикере".
Было бы здорово, если бы у нас была механика, которая позволяет семантически разрезать эти кусочки смысла, не теряя их, и создавать отдельные "стикеры" самостоятельно? И это возвращает нас к логике сбора информации, о которой мы писали выше.
Итак, есть RAG, который состоит из двух этапов: разбиение на сегменты и поиск нужных фрагментов. Он эффективен, если документ уже хорошо разбит, но сделать это – сложная задача. Людям же естественно формулировать информацию по частям. Мы предлагаем объединить эти возможности. Команда может собирать фрагменты смыслов в базу данных, а система будет с ними эффективно работать. Так мы устраняем две проблемы сразу: система не совершает ошибок при выделении смыслов, а команда не собирает информацию в сложные структуры.
Дополнив эту логику системой тэгов и всплывающих подсказок, мы получаем удобный инструмент накопления экспертной базы в компании. Работая сообща, люди и нейросеть создают механизмы эффективного сотрудничества, и вместо конкуренции они дополняют друг друга в единой команде.
Разберем конкретный пример
Участник команды Даниил Чернов добавляет в систему новый факт:
Участие компании в отраслевой конференции подтверждено. Дата - 26.07.25.
Система предлагает добавить тэги для лучшего ориентирования: #конференция #дедлайны.
Коллега дополняет данные:
Добавь еще тэг "Позиционирование" и напиши, что от нашего подразделения будем участвовать Агата Новак, я и Саша Максименко.
Система добавляет тэги и участников конференции.
Теперь в систему может написать Саша Максименко:
Посмотри, подтверждено ли мое участие в конфе в июле?
Система, ориентируясь по целому ряду параметров (кто задал вопрос? какие тэги возможны к этому вопросу? какие даты обозначил спрашивающий?) находит нужный факт и отвечает:
Да, ваше участие в отраслевой конференции 26 июля подтверждено. С вами будут выступать коллеги Агата новак и Даниил Чернов. Есть ли у вас еще вопросы?
У Саши нет вопросов, но есть дополнение по своей экспертной части:
Запиши, что тема конференции еще согласовывается, но я точно иду выступать с презентацией по исследованию ЦА, и новое лого - подсолнух - уже поменяли во всех маркетинговых материалах. Коллегам важно проверять свои материалы и убрать старые логотипы.
Система фиксирует новый факт и предлагает тэги: #логотип #конференция #презентация
В конце года в отделе внешнего позиционирования готовят отчетные материалы по участию в конференциях. Нужно оперативно собрать информацию по целому ряду параметров: кто участвовал в конференциях, какие были даты, какие названия, какие материалы были подготовлены для выступлений. Все эти данные можно заранее собирать в течение года, но так бывает далеко не всегда. Либо эти данные можно собрать в конце года, но в это время, как правило, хватает и других задач.
Используя наш подход, сотрудник внешнего позиционирования обращается в систему, и она сама предоставляет ему все материалы в структурированном виде, с датами выступлений, участниками и материалами.
Перспективы и выводы:
Подход, который мы предлагаем, позволяет использовать ИИ для упорядочивания данных без создания искусственных структур, сохраняя при этом естественный язык. Благодаря ИИ данные могут быть организованы в понятную структуру.
Мы не говорим, что мы нашли серебряную пулю или волшебную таблетку против хаоса в данных, так как идеального инструмента на текущий момент в принципе не существует. Однако во многих кейсах новые технологии будут полезны. Там, где люди сами создают большой поток разрозненной информации, хаос данных при помощи агентов можно превратить в практически неисчерпаемый ресурс.
В повседневной работе разработанный нами подход упростит обмен информацией и ее поиск среди членов команды. Мы предлагаем не заставлять людей собирать свои фрагментарные истории в систему и не заставлять затем нейросети разбирать знания обратно на фрагменты. Потому что, похоже, у нас есть механика, которая позволяет ориентироваться во фрагментарных знаниях именно по смыслу.