Первые поиски в Telegram

Первые поиски в Telegram

wegwarte & hex break & TG @netstalking

Мессенджер Telegram за сравнительно непродолжительную жизнь стал хранилищем массы неотсортированного, неиндексируемого контента. Объединяя в себе возможности блога, файлохранилища, конференции и канала секретной переписки, он не пошёл по пути соцсетей. Это в вк всё связано со всем, и что не найдёт внутренний поисковик - то можно попробовать выцепить во внешнем либо через переходы по профилям и пабликам. Это в жж можно найти необычные посты, пробираясь по комментариям и тегам от топа вглубь к непознанному. Тележка же непрозрачна: полна не связанных между собой закоулков, что делает её одной из неиндексируемых частей сети.

И всё же нетсталкеры потихоньку обнаруживают "проходные дворы".

Куда идём?

  • Группы, они же конфы/чаты. Бывают открытые и закрытые, плюс отдельная настройка: выдаётся ли история группы полностью или с момента захода в неё. Тематические конфы хранят много локальщины, не получаемой другими путями.
  • Каналы. Аналог пабликов, лент, блогов. Бывают тематические, новостные, для пиара и заработка, а бывают личные и очень малоизвестные. С творчеством и странными постами. Также в тг много созданных пустых каналов. :(
  • Личные акки. Иногда можно найти человека по основному нику. Можно ещё пытаться искать людей с конкретным словом в нике.
  • Боты. Отличаются концовкой адреса на bot. Многие из них заброшены или недоделаны, но всё равно хостятся. Есть шансы найти интересную разработку и невозбранно ею пользоваться.

Глобальный поиск по названиям

Введён недавно и немного нестабилен. Похоже, что выдаёт лишь три результата из возможных. Всё же позволяет находить открытые конфы (группы) и каналы. И людей. Что с этого можно поиметь? Придумывать интересующие названия/ники людей и вбивать их в поиск до победного!

При поиске запрос транслитерируется, именно так нашёлся последний канал в списке

Возможная автоматизация: перебором словаря с интересующими ключевиками. Использование разных сочетаний слов и дополнительных букв, сгенеренных по заданному словарю автоматически, может дать новые результаты. Реализация - самописный скрипт+telegram-cli.

Широкий обзор

Рандомсталкинг. Как он может выглядеть в телеге?

Мы пробовали брутить закрытые адреса. Но длина строки и количество возможных символов велики - тг хорошо защищен от перебора.

Тогда одному участнику Точки (hex break) пришло в голову перебирать открытые адреса (это те, которые через @ пишутся). Здесь есть два способа:

- Словарный перебор.

- Перебирать все возможные комбинации букв. Длина адреса - от 5 до 32 символов. Мы начали с комбинаций из одной буквы в разном количестве:

Слева направо колонки: адрес, юзер/канал, просмотрено:чек, описание, степень занятности, ник просмотревшего, "арабский" ли канал

Как видите, плоды перебора сведены в табличку. Это хорошо для коллективной работы (табличка расшарена для всех, кому выдана ссылка) и незаменимо для сохранения её результатов.

Но это только один важный инструмент. Всё, что касается ручного перебора - требует помыслить об автоматизации. В данном случае был написан скрипт для генерации адресов и csv-файла (файл с разделителями; это заготовка для таблички, читаемая любым эксель-подобным редактором) с нужными заголовками колонок. Остальное делали вручную.

Но мы бы всерьёз сэкономили время, если бы создали ещё и скрипт отсева юзеров и каналов (интересовали, очевидно, каналы). Идея простая: проходить по адресам на t.me и давать на выход только те, что соответствуют каналам + названия этих каналов. Уже даёт первое впечатление о найденном сырье.

В телеге очень много каналов из Ирана и других ближневосточных стран, условно "арабских". В основном натыкаемся на них. Вот одна стори о том, как из груды закорючек получить внятную картинку восточной молодёжной жизни.

Заглядываем за дверцу

Попадать в закрытые чаты и каналы брутом у нас уже не вышло. Но оказывается, гугл индексирует некоторые из таких ссылок.

Дорк: site:t.me join

Объёмы выдачи: 338000 результатов на момент составления дорка.

Первое предположение, откуда поисковик набрал этих ссылок - админы оставляли их в поверхностной сети, где на них и набрёл краулер гугла. Может случиться и забыться у каждого, так что защищайте свои секретные конфочки и почаще меняйте инвайт-ссылки.

Ещё одно пояснение

Примеры лута можно глянуть на https://t.me/undetectedlink - канал с выявленными ссылками (запилен Agent'ом). Вот только один из наборов дорков, по которым находились ссылки:

(скрин из доркопарсера SiteSputnik)

Что там попадается? Вот испанский чат на 11 человек, которые думают что мы в матрице и ловят глитчи: https://t.me/joinchat/A02m5ECEnxjFM1sVDfyvGg

Пройти сквозь стену?

Мы привыкли искать контент в клирнете прямо по тексту страниц и сообщений. По сравнению с этим возможности поиска телеги, позволяющие подглядеть только названия и адреса, выглядят ограничивающе. Казалось бы, есть много открытых конф, почему не проиндексировать их? Или хотя бы каналы, они ведь ведутся, чтобы их читали? Кто знает, введёт ли это Телеграм, а вот ботоводы уже делали попытки индексации затемнённого пространства.

Telegram SearchEngine - поисковик, проект в виде бота и веб-поисковика по каналам Телеграм. На момент написания статьи терпит крушение, но опишу общий концепт. Бот собирает логи каналов. Массово. Заявлено 150 000 каналов охвата. Из них составляется индекс, то есть база текстов для поиска. Потом по запросу пользователя по индексу делается поиск.

Можно ли сделать аналогичное для конференций? Да. Для такого сбора достаточно создать бота-логгера и вручную добавлять во все конференции, в какие возможно (автозаход ботов в ТГ невозможен). Кстати, именно поэтому не стоит добавлять в закрытые чаты незнакомых ботов и тем более позволять это делать другим.

Захват Телеграфа

Когда-то telegra.ph создавался для удобного взаимодействия с Телеграмом, так что тоже в тему. И тоже слабо индексируется обычными поисковиками.

Вы уже могли видеть поисковик по постам в Телеграфе. Он ищет по заголовкам постов. Кроме того, как и в случае со ссылками на закрытые ресурсы, много рандомного материала можно получить с помощью

дорка: site:http://telegra.ph

Объёмы выдачи: 757 000

Добавляя к дорку ключевые слова, можно искать уже и в теле постов, хоть, увы, только затесавшихся в индекс Гугла/Яндекса.

Из интересного в этой местности находили, например, ссылку на АРГ и чьи-то личные дневники. Из мусора популярны рекламные и другие ссылки, в том числе "даркнет" тематики.

Взять на память

Отдельно стоит поговорить об архивации. В официальном клиенте телеграма нет возможности выкачивать логи. Копировать вручную тоже не выйдет: максимум 100 сообщений выделяется за раз. Ранее тут говорилось о боте-логгере... значит, всё-таки это возможно?

Да. Основной известный мне способ - через telegram-history-dump. Этот скрипт работает лишь с telegram-cli. Настройки по умолчанию сделают дамп в JSON-формат, лучше забраться в настроечный файл и раскомментировать опцию для html (если это для личного чтения) или bare/plaintest (если для машинного анализа, статистики). Для анализа JSON есть такой готовый инструмент: telegram-analysis, там есть дополнительные инструкции и по работе с дампером.


В заключение хочу предупредить, что телега динамично развивается, и однажды эти рекомендации станут неприменимы. А пока это целый неизведанный мир с обилием потайных уголков.


Report Page