Как навести порядок в хаосе данных: стратегия для бизнеса

 Как навести порядок в хаосе данных: стратегия для бизнеса

Иван Дашкевич

"Ватсон, поймите: человеческий мозг — это пустой чердак, куда можно набить всё, что угодно."


Рано или поздно любой бизнес сталкивается с проблемой обработки данных, которые хаотично накоплены и напоминают беспорядочный склад ценных артефактов. Сориентироваться в них без путеводителя практически невозможно. Мы часто работаем с кейсами, где основная сложность заключается именно в неструктурированных данных. Искусственный интеллект помогает решить эту проблему, превращая данные в ваш конкурентный ресурс.


В чем сложность подготовки данных?


У всех компаний они есть, но, как правило, они хранятся в неструктурированном виде. Чем больше компания, тем больше у нее данных, больше экспертизы, и кажется, что проблем с ними не будет. Но на выходе получаем парадокс: данных много, а общая картина не складывается, либо данные не дают инсайтов, не используются на 100 %, из них не извлекается максимум пользы.


Какие есть варианты?


Каждая новая технология, будь то машинное обучение, генеративные модели или интеллектуальные агенты, вызывает ожидания, что вот теперь-то технический прогресс наконец решит проблему хаоса в данных.


Как возникает этот беспорядок? Представьте себе корпоративное хранилище небольшой команды на старте первых проектов. Файлы хаотично складываются на хранение, команда растет, появляются новые коллеги, усложняются процессы, увеличивается клиентская база. И однажды у руководителя возникает вопрос: как управлять всей этой информацией? Можно хранить данные в виде книг знаний, баз, FAQ, и со временем их будет становиться все больше, а форматы будут все более разными, как как всем удобны разные виды хранилищ, документов и таблиц. Хранение данных в разнообразных форматах создает риск их превращения в хаотические артефакты мудрости отдельных команд или даже отдельных сотрудников. Форматы отличаются по удобству, ведь каждый предпочитает свои структуры и подходы.


Похожая ситуация происходит на уровне компаний с дата-хранилищами. Часто ставку делают на новые технологии, надеясь, что они устранят хаос. Однако на практике это не всегда срабатывает. Мы не утверждаем, что у нас есть идеальное решение, но предлагаем взглянуть на проблему под другим углом.


В компании работает команда профессионалов, и каждый из них является экспертом в своем домене. Каждый эксперт владеет значимой информацией о проектах и процессах, но регулярное обновление баз данных — времяемкое занятие, на которое часто нет ни времени, ни ресурсов. Если бы эксперты могли записывать свои знания фрагментами, не задумываясь о форматах и структурах, это значительно упростило бы процесс и повысило ценность хранимой информации.


Такой подход мы и предлагаем: каждый сотрудник как носитель уникальных знаний может поделиться ими. Если многие в компании сделают это, появляется возможность организовать знания эффективно. Мы воплотили этот подход и видим его пользу.


Что мы предлагаем?


Представьте себе корпоративный инструмент, который напоминает твиттер, форум и доску объявлений одновременно. Он создан специально для обмена знаниями среди коллег. ИИ в этой системе помогает упорядочивать информацию и предоставлять ее в удобной форме. Он позволяет легко ориентироваться в хаосе данных, эффективно управлять ими и своевременно обновлять, не отвлекаясь от рабочих задач.


Что в принципе эксперт может зафиксировать в такой системе? Например, он может использовать эту виртуальную доску для организации своего времени и информации. Он может установить список вопросов, с которыми к нему нужно обращаться, указать рабочие часы, даты встреч и важные заметки, чтобы коллеги знали о его текущих проектах. Он также может сообщить договоренности с ключевыми клиентами на момент отпуска, чтобы его проекты не простаивали. Он может расположить там все, что посчитает нужным, в произвольном порядке.


Почему вдруг это стало работать?


Потому что современные технологии позволяют выделять смысловые фрагменты из большого объема данных, которые человеку часто кажутся хаотичными.


Представим каждый факт в виде стикера. Всю информацию о компании можно визуализировать как бесконечную доску со стикерами. Наша технология помогает находить и подсвечивать именно те стикеры, которые вам нужны. Это решение позволяет создать обширное информационное поле, где каждый может делиться своими знаниями в свободной форме.Таким образом мы вовлекаем команду экспертов в процесс формирования альтернативного источника знаний, где можно делиться заметками в наиболее естественном формате. А современные системы отметят и отсортируют важные моменты, что сделает обмен информацией более органичным и доступным для всех. Людям не нужно структурировать эти кусочки знаний - система сама сможет разобраться в представленном ей информационном пространстве.


Преимущества кратко:

1. Сбор человеческой экспертизы: ИИ способен собирать и анализировать знания и опыт сотрудников, создавая ценную базу знаний компании.

2. Экспертиза как ценность: Накопленная экспертиза становится ценным активом компании.

3. Цифровой помощник создает облако знаний, пока вы сосредоточены на более важных задачах. Он организует данные, аккуратно превращая их из хаотического беспорядка в ценный ресурс для вашей команды.


Как это работает технически


Классический Retrieval-Augmented Generation (RAG) разбивает структурированные документы на смысловые сегменты, а затем осуществляет поиск по этим сегментам. Мы предлагаем изначально собирать данные, уже с учетом разделения по смыслам, причем самими специалистами, фиксирующими свои знания и опыт.


Таким образом мы объединяем сильные стороны человека и машины. Мысли проще формулировать естественно, нежели структурировать, особенно если речь идет о больших объемах и форматах. RAG - инструмент, который как раз предназначен для работы с данными: он делит структурированный документ на части и обеспечивает доступ к информации. По кусочкам он прекрасно предоставляет доступ, но ключевым вызовом остается грамотное разбиение документа на сегменты, где смысл сохраняется в каждом "стикере".


Было бы здорово, если бы у нас была механика, которая позволяет семантически разрезать эти кусочки смысла, не теряя их, и создавать отдельные "стикеры" самостоятельно? И это возвращает нас к логике сбора информации, о которой мы писали выше.


Итак, есть RAG, который состоит из двух этапов: разбиение на сегменты и поиск нужных фрагментов. Он эффективен, если документ уже хорошо разбит, но сделать это – сложная задача. Людям же естественно формулировать информацию по частям. Мы предлагаем объединить эти возможности. Команда может собирать фрагменты смыслов в базу данных, а система будет с ними эффективно работать. Так мы устраняем две проблемы сразу: система не совершает ошибок при выделении смыслов, а команда не собирает информацию в сложные структуры.


Дополнив эту логику системой тэгов и всплывающих подсказок, мы получаем удобный инструмент накопления экспертной базы в компании. Работая сообща, люди и нейросеть создают механизмы эффективного сотрудничества, и вместо конкуренции они дополняют друг друга в единой команде.


Разберем конкретный пример


Участник команды Даниил Чернов добавляет в систему новый факт:

Участие компании в отраслевой конференции подтверждено. Дата - 26.07.25.

Система предлагает добавить тэги для лучшего ориентирования: #конференция #дедлайны.

Коллега дополняет данные:

Добавь еще тэг "Позиционирование" и напиши, что от нашего подразделения будем участвовать Агата Новак, я и Саша Максименко.

Система добавляет тэги и участников конференции.


Теперь в систему может написать Саша Максименко:

Посмотри, подтверждено ли мое участие в конфе в июле?

Система, ориентируясь по целому ряду параметров (кто задал вопрос? какие тэги возможны к этому вопросу? какие даты обозначил спрашивающий?) находит нужный факт и отвечает:

Да, ваше участие в отраслевой конференции 26 июля подтверждено. С вами будут выступать коллеги Агата новак и Даниил Чернов. Есть ли у вас еще вопросы?

У Саши нет вопросов, но есть дополнение по своей экспертной части:

Запиши, что тема конференции еще согласовывается, но я точно иду выступать с презентацией по исследованию ЦА, и новое лого - подсолнух - уже поменяли во всех маркетинговых материалах. Коллегам важно проверять свои материалы и убрать старые логотипы.

Система фиксирует новый факт и предлагает тэги: #логотип #конференция #презентация


В конце года в отделе внешнего позиционирования готовят отчетные материалы по участию в конференциях. Нужно оперативно собрать информацию по целому ряду параметров: кто участвовал в конференциях, какие были даты, какие названия, какие материалы были подготовлены для выступлений. Все эти данные можно заранее собирать в течение года, но так бывает далеко не всегда. Либо эти данные можно собрать в конце года, но в это время, как правило, хватает и других задач.


Используя наш подход, сотрудник внешнего позиционирования обращается в систему, и она сама предоставляет ему все материалы в структурированном виде, с датами выступлений, участниками и материалами.


Перспективы и выводы:


Подход, который мы предлагаем, позволяет использовать ИИ для упорядочивания данных без создания искусственных структур, сохраняя при этом естественный язык. Благодаря ИИ данные могут быть организованы в понятную структуру.


Мы не говорим, что мы нашли серебряную пулю или волшебную таблетку против хаоса в данных, так как идеального инструмента на текущий момент в принципе не существует. Однако во многих кейсах новые технологии будут полезны. Там, где люди сами создают большой поток разрозненной информации, хаос данных при помощи агентов можно превратить в практически неисчерпаемый ресурс.


В повседневной работе разработанный нами подход упростит обмен информацией и ее поиск среди членов команды. Мы предлагаем не заставлять людей собирать свои фрагментарные истории в систему и не заставлять затем нейросети разбирать знания обратно на фрагменты. Потому что, похоже, у нас есть механика, которая позволяет ориентироваться во фрагментарных знаниях именно по смыслу.



Report Page