ChatGPT + OSINT = ?

ChatGPT + OSINT = ?

@osint_mindset

Как и многие, я поигрался c новомодной нейросетью ChatGPT. Напоминаю, что это новое продвинутое поколение чат-ботов с продвинутыми возможностями. Задай любой вопрос и получишь ответ:

Давайте посмотрим, чем она пригодится в OSINT!

Содержание

Введение

Итак, ChatGPT:

Как она всё это делает? Краткий технический разбор на русском языке можете прочесть здесь, а мы двинемся дальше — к использованию чат-бота в типовых для OSINT задачах. Попутно выявим и некоторые её важные особенности.

Да, и ещё кое-что. Я заметил, что многие люди не понимают, как устроена эта технология. И думают, что это ИИ (искусственный интеллект) либо всемогущий поисковой сервис. Но нет, это не так, и делать выводы о том, насколько она полезна, имеет смысл только после изучения её способностей.

Поехали!

Наверх

Поиск информации

Давайте начнём с простого.

Мда. Что-то наша нейросеть сплоховала. Напоминаю, что ChatGPT — не бездонная база знаний, а неких механизм, "достраивающий" ответ к нашему вопросу. Очевидно, что на русском языке она достроила ответ к слову "такси". Возможно, она и не знает ничего про таксидермистов, так как большая часть данных для её обучения была на английском языке. Давайте зададим вопрос на нём.

Отлично, это уже похоже на правду!

Всем желающим использовать ChatGPT сразу предлагаю перейти на английский: опыт показывает, что и ответы с большей вероятностью будут правильные, и даже скорость ответа быстрее. Но ниже по тексту мы будем чаще использовать русский язык, чтобы статья была доступнее для читателей.

Что ж, давайте спросим нечто более конкретное.

Срез данных для обучения брали за 2020 год, и про меня (автора статьи) в Интернете уже что-то было. Ответ нейросети похож на правду, но слишком расплывчатый и местами некорректный (Форбс? Black Hat? Ах, если бы).

Заметим также, что ссылки на соцсети ChatGPT "достроил" на основании шаблонов URL. Две из трёх ссылок неправильные и не ведут на существующие страницы.

Что ж, держим в голове, что нейросеть выдаёт не единственный правильный, а вероятностный ответ. Попробуем этим воспользоваться в наших целях.

Наверх

Цикл разведки

Одна из моделей процесса OSINT, которую я использовал в материалах своего курса OSINT 101, выглядит так. Это трёхлистник из бесконечной стрелки, показывающий три основные этапа процесса: подготовку, сбор и обработку информации.

Давайте методично пройдёмся по каждому из них и посмотрим, чем нам может помочь ChatGPT.

Наверх

Подготовка

На первом этапе нам нужно собрать требования (что искать?), проанализировать возможные источники (где будем искать?), составить краткий план действий.

Хорошо, когда у нас есть чёткое техзадание по поиску. Но что, если вопрос ставится максимально расплывчато? Например, стоит сотрудничать с компанией или нет. Давайте разбираться.

Неплохо. Нейросеть нам предложила проверить конкретные вещи и разложила по полочкам. Давайте остановимся на первом пункте и попробуем углубиться в него.

В этот раз я попросил отсортировать критерии по убыванию критичности и вывести нормальные значения. Не очень похоже, что она справилась с сортировкой, зато она даже упоминает конкретные сайты для проверки! Погодите, тогда мы её и об источниках информации можем спросить?

А вот он и план для проверки, не правда ли? Разумеется, по каждому пункту можно выполнить поиск инструментов отдельно или даже вручную, но ChatGPT нам тут сильно сокращает работу.

Кстати, в оригинальном веб-интерфейсе есть фишка генерации таблиц. Давайте опробуем конкретно её для случая, когда мы ищем для себя новые инструменты.

Так, а что делать, если мы знаем только один конкретный факт, но не понимаем, чем придётся пользоваться в качестве источника?

Предположим, что у нас есть кусочек информации об увлечениях человека. Скажем, он фанат велосипедов.

Думаю, я бы потратил минут 10-15, чтобы найти эти сайты и понять все кейсы использования онлайн-ресурсов для велосипедистов, так что ChatGPT нам прилично сэкономил время! Эксперт по продуктивности Николай Сенин, из статей которого я почерпнул много интересного про использования нейросети утверждает об ускорении некоторых своих регулярных рабочих процессов в десятки раз. Могу только подтвердить: умелое использование ChatGPT позволяет вам сократить десятки минут поиска и анализа разных сайтов до нескольких секунд ожидания.

Наверх

Сбор

Второй этап процесса OSINT включает в себя поиск, валидацию, мониторинг, суммаризацию и индексацию.

Так так план у нас уже есть, давайте переходить к самому поиску. Воспользуемся каким-либо сайтом-источником данных и начнём в нём искать. А как искать?

Умные люди перетащили из информационной безопасности термин "поверхности атаки" и начали использовать их для таких схем — очень удобных и позволяющих быстро оценить, какие данные есть в конкретном месте.

https://github.com/sinwindie/OSINT/blob/master/Twitter/Twitter%20OSINT%20Attack%20Surface.pdf

Увы, ChatGPT пока не умеет рисовать схемы (разве что таблицы), но давайте попробуем сперва прикинуть такую схему для нашего источника информации.

Не совсем то, что мы хотели, но по сути информация верная. Untappd — это социальная сеть для любителей пива, и в ней действительно можно искать по имени, по месту жительства (вернее, по заведениям рядом), по интересам и предпочтениям (сортам пива) и даже собирать таймлайн из алкогольных похождений.

Что ж, давайте заставим нейросеть поискать?

Эээ, нет. Очевидно, что ChatGPT ответила какую-то ерунду. В Untappd точно есть эти сведения, но в действительности она, конечно, не запросила никакие данные, а придумала что-то правдоподобное в ответ. Давайте уточним, откуда брать данные.

Выглядит неплохо! Только ответила почему-то на английском... Как будто это один из вопросов, на которых нейросеть тренировали. Впрочем, окей, давайте сравним с реальностью.

Так, с нашей оценкой не совпадает. Помним, что нейросеть обучена на данных не позже 2020 года, давайте спросим, на какой момент данные актуальны.

Хотя бы это она говорит, и то хорошо! Постойте, а почему оценка уже другая?...
Да уж. Точной информации мы от ChatGPT не дождёмся. А, значит, в поиске и валидации точной информации нейросеть нам не пригодится.

А что насчёт суммаризации? Давайте попросим собрать воедино много данных и "сжать" их до кратких выводов. На примере того же пива, а почему бы и нет.

Очень здорово! Хоть и с обилием клише вроде "неповторимости", но очень похоже на правду. Я уже был готов заканчивать с этим вопросом, если бы не перфекционизм: в запросе я написал "её потребителями", а не "его потребителями" (пива). Поэтому сделал ещё один запрос, и....

ВП: взаимоисключающие параграфы. Теперь наше пиво содержит мало алкоголя и совсем не питательное, ровно наоборот. Сдаётся мне, вы лжёте, товарищ ChatGPT!

Что ж, на этом и подведём черту: точную информацию предоставлять нейросеть не умеет, лишь что-то похожее на правду. Это поможет нам собрать нужную информацию, но её нужно будет проверить и валидировать. Иногда проще использовать Google или конкретные сайты, так что в этом ChatGPT пока не силён.

Наверх

Обработка

Третий этап включает в себя процессы "постпродакшна". Мы уже собрали некоторые данные, провалидировали их, теперь нам нужно синтезировать из них полезную информацию (провести аналитику, если угодно) и сформировать из этого некий отчёт. А в идеале ещё и задуматься о способе доставки этой информации и её долгосрочном хранении на будущее.

Предположим, что мы собрали некоторые данные и хотим сделать вывод. Давайте призовём всю мощь нейросети!

Так, ну насчёт одинаковых имён ChatGPT соврала, но в остальном всё здраво! Но, погодите, вдруг нейросеть притворяется, что понимает собранные нами данные...

Я поменял ссылки на сайты, а результат всё тот же. Увы, пока что ответ похож только на поверхностую видимость аналитики.

Довольно здраво. Заметьте, что нейросеть выдала нам и рекомендации по дальнейшим шагам, которые мы также можем поместить в отчёт. Так, а что насчёт общей структуры нашего итогового документа?

Очевидно, что это не универсальный шаблон, а некая выжимка из чаще всего "встречаемых" нейросетью отчётов. Впрочем, тут вы можете увидеть какие-то пункты, про которые забыли в начале пути. Что заставит вас вернуться и поискать дополнительную информацию (модель процесса OSINT представляет собой бесконечный цикл, ведь помните? :).

Двигаемся дальше. Давайте конкретизируем цель отчёта и попробуем описать шаблон подробнее.

Восхитительно, может она ещё и отчёт за меня напишет?...

Что-то похожее на правду, но мне пришлось несколько раз переиначить запрос, чтобы нейросеть поняла, что я от неё хочу.

Двигаемся дальше. Попросим у ChatGPT совета, как улучшить уже существующий отчёт?

Хотя большинство упомянутых тезисов выглядят простыми и банальными, это не умаляет их важности, и их смело можно использовать в качестве рекомендаций.

Итог. С логическими умозаключениями и хотя бы поверхностной аналитикой ChatGPT не справляется в той степени, в которой нам хотелось бы. Но для этапа оформления и структурирования информации ChatGPT подходит довольно хорошо. Берём на вооружение!

Наверх

Методика 4П

Если вы следите за моим каналом и докладами на митапах OSINT mindset, то можете помнить мою методику, помогающую быстро разобраться в новой предметной области в целях поиска какой-либо информации. Подробнее в этом видео.

Пришлось изрядно покрутить вопросы к ChatGPT, выяснив, что работает и каким образом. У этого даже есть своё название, кстати: инженерия запросов (и даже целые сообщества таких инженеров уже есть).

В итоге я получил более-менее стабильную структуру, которая чаще всего выдаёт желаемый результат. Приведу её ниже полностью текстом, чтобы вы могли скопировать и использовать такой запрос as is.

Тебе нужно описать по методике область "логотипы сайтов". Методика заключается в следующем:
1. Перечисляем через запятую самые распространенные существительные, относящиеся к области, в порядке убывания популярности. 
2. Перечисляем через точку с запятой все процессы, связанные с нашей областью, в формате объект глагол субъект (например, "издательство выпускает книгу"). 
3. Перечисляем через точку с запятой информационные системы, где появляется информация о понятиях нашей области. 
4. Перечисляем через запятую URL информационных систем, где появляется информация о понятиях нашей области.
Ответ по каждому из пунктов должен быть пронумерован, после каждого ответа должен быть перенос строки, в каждом ответе должно быть не менее 10 результатов.

Посмотрим, что такой запрос выдаёт?

Что мы видим: перечисление ключевых слов из интересующей нас темы "логотипы"; некоторые процессы из темы (заметьте, всё-таки не в том формате, в котором я запросил); места, где могут встречаться логотипы; а также сами сайты — и они действительно выглядят полезными для поиска!

Далее я приведу более сложные примеры, для экономии места приводя только название темы / предметной области и скриншот ответа.

Нумизматика:

Морские контейнерные грузоперевозки:

Золотодобыча:

Секвенирование ДНК:

Старые книги:

Так, а что насчёт злополучной таксидермии?

Опять провал. А на английском?

Результаты про таксидермию на английском немногочисленны, но уже хотя бы не выдуманы. Заметьте, списки сайтов по узким тематикам выглядят так, будто они искусственно сгенерированы. Так и есть, когда ChatGPT не может "вспомнить" другие сайты, она делает новые ссылки по подобию других.

Важная ремарка относительно правдивости и полноты данных по разным предметным областям. Помните, что все ответы — это та же выжимка из данных Интернета. И для определённых популярных областей знаний эти данные могут быть неверными просто потому, что в Интернете мало правдивых сведений и много выдумок или банального инфоцыганства.

Уже упомянутый Николай Сенин отмечает, что эффективнее всего ChatGPT помогает в областях, которые не являются очень узкими, но и не являются сверхпопулярными, попсовыми. В первом случае нейросеть начинает "выдумывать" ответы, во втором результаты будут загажены ерундой.

Слева - запросы на узкие темы, справа - на сверхпопулярные

Наверх

Заключение

Полезна ли ChatGPT для OSINT? Однозначно! Но, как и с любым другим инструментом, её нужно правильно использовать. Нейросеть поможет:

  • понять, какими источниками и инструментами воспользоваться;
  • очень быстро разобраться в определённой теме;
  • подготовить структуру отчёта и даже создать его шаблон.

Как вы заметили, в статье приведены скриншоты из Telegram. Для простоты я пользовался одним из прокси-ботов, но всё же рекомендую использовать оригинальный интерфейс сайта chat.openai.com. Зарегистрироваться там несложно, нужна всего лишь виртуальная иностранная сим-карта.

Разумеется, в статье я отразил только некоторые частные кейсы из направлений, в которых может пригодиться OSINT. Если вы не нашли полезных для себя примеров, то просто попробуйте поэкспериментировать!

Напоминаю, что всё вышеизложенное является моим мнением и может не совпадать с действительностью. Не согласны со мной или хотите дополнить? Смело пишите мне в Telegram или в чат!


Наш сайт | OSINT mindset канал | Форум OSINT-расследований


Приложение

В текст статьи не попало несколько дополнительных примеров использования ChatGPT. Но я всё равно посчитал их достаточно интересными, и включил в приложение в конец статьи.

  • Фейковый вывод данных из бота по пробиву (спасибо Ghost of Ascension с форума OSINT-расследований)


  • Запрос в Overpass (валидный, но, к сожалению, не совсем правильный логически)
  • Сравнение функциональности инструментов с помощью табличного вида по признаку возможности работы с тем или иным типом данных.

Если вам интересны другие оригинальные применения ChatGPT, то можете найти огромное количество интересных запросов здесь.

Report Page