НЯН Whitepaper

НЯН Whitepaper

Nyan Nyanovich

НЯН собирает сообщения с других новостных каналов в Телеграме, склеивает похожие сообщения в сюжеты и разбивает источники на 3 типа. Помогает быстро понимать, кто написал новость, и стоит ли ей доверять. Открытый исходный код.

Пример сюжета

Что означают эмодзи

🇷🇺 Красные. Российские официальные новости и прогосударственные каналы.

🌎 Синие. Оппозиционные и зарубежные каналы.

⚖️ Фиолетовые. Нейтральные каналы.

⏱ Самый оперативный. Канал, написавший первым.

👁️ Просмотры. Общее количество просмотров по всем постам в сюжете.

Как это работает

  1. Обход каналов. Поисковый робот раз в несколько десятков секунд обходит все каналы из списка, формируя поток документов за последние 6 часов.
  2. Разбивка на сюжеты. Поток документов разбивается на сюжеты, то есть на наборы документов про одни и те же события, но от разных источников. Как именно — написано здесь, здесь, или тут.
  3. Фильтрация сюжетов. Среди получившихся сюжетов оставляются только важные. Текущие критерии важности: количество источников и суммарное количество просмотров за разные промежутки времени. Среди всех больших сюжетов выбираются 40% лучших по просмотрам в час.
  4. Выбор аннотации. Для каждого сюжета нужно выбрать тот документ, который будет этот сюжет представлять — аннотацию. Текущие критерии выбора аннотации: русский язык, свежесть, не слишком длинный текст, похожесть на остальные документы сюжета.
  5. Отчёты. Раз в сутки, в 21:00 по Москве, обычно выходят отчёты по опубликованным сюжетам. В них можно увидеть, от каких источников были новости, и сколько их было.

Идеология

Гарантируется свобода массовой информации. Цензура запрещается. — Конституция РФ, ст. 29, ч. 5
Знание само по себе сила. — «Meditationes sacrae», Фрэнсис Бэкон
Я не разделяю ваших убеждений, но готов умереть за ваше право их высказывать. — «Друзья Вольтера», Эвелин Беатрис Холл
О важности освещения с разных точек
  1. Нужность новостей. Новости — важная часть общественной и политической жизни. Если бы никто не распространял новости, многие преступления остались бы безнаказанными. Не нужно игнорировать реальность.
  2. Выход из пузыря. «Пузыри фильтров» — это когда соцсети и персонализированные сервисы создают ошибочное впечатление, будто вашу точку зрения разделяет весь мир. Они поляризуют и радикализуют общество, а потому важно их избегать.
  3. Справедливое освещение. Если есть несколько позиций, то они должны одинаково присутствовать в канале, независимо от того, сколько источников на той или иной стороне.

Особенности

  1. Дисклеймер. Новости группируются автоматически. Сообщение не достоверно. Правдивость информации не проверяется. Потому что это действительно так, и я не хотел бы, чтобы вы принимали все новости за чистую монету. А также из-за законов РФ.
  2. Анонимность. Это нужно, чтобы лишний раз не подставляться. Я не считаю, что делаю что-то плохое, скорее наоборот. Но я не доверяю судебной системе, и лишний раз предпочёл бы не связываться с полицией или спецслужбами.
  3. Реклама. Её нет и не будет. Единственные мои расходы — содержание сервера, и стоит это меньше коммуналки в моей квартире. Кроме того, зарабатывание денег на распространении новостей — это уже совсем другая статья.
  4. Открытые исходники. Раз рекламы не будет, то нет никакого смысла скрывать исходный код агрегатора. Кроме того, открытость исходников повышает доверие к каналу.
  5. Один человек. Команда состоит только из одного человека. Я и инженер, и аналитик, и рекламщик. И расширять команду я не планирую.

Чего НЕ делает канал

  1. Проверка достоверности. Канал НЕ проверяет достоверность сообщений. Нет никакой проверки фактов и разоблачения фейков.
  2. Изменение оригинальных сообщений. Канал НЕ изменяет тексты источников, за исключением вырезания особенностей форматирования, дисклеймеров и текстовых копирайтов.
  3. Ручное вмешательство. Ничего НЕ исправляется руками, за исключением явных технических багов. При этом регулярно меняется сама система.

Вопросы

Почему ты уверен, что разбивка каналов на группы правильная?

Есть объективные данные о совместном попадании различных каналов в сюжеты. Один из способов эти данные отобразить — построить Word2Vec-like модель, где вместо предложений сюжеты, а вместо слов каналы. В результате для каждого канала получается вектор в некотором пространстве.

Чем вероятнее каналы встречаются в одних и тех же сюжетах, тем ближе должны лежать их векторы. Подобная визуализация есть на картинке ниже. Цветами отмечены разные группы источников. Красная и синяя группы явно выделяются на этой картинке.

Тексты постов в этом методе никак прямо не используются, только факты попадания постов разных каналов в один сюжет. Условно, если в сюжет попали TJ, DOXA и SOTA, то анализируемый "текст" будет выглядеть как "tj doxa sota". А вот скрипт для подсчёта.

Agency2Vec

На чём планируешь зарабатывать, если не на рекламе?

Заказы на аналитику и мониторинги, персонализированные каналы и боты. Но об этом пока рано говорить.

Пожертвования:

  1. BTC: bc1qdq02gd9m9zh702aeu654gs06zsefp2dmt3sha8
  2. ETH: 0x712754f570f32F95FcE3804E051dCD57fdC6F04B

Почему такое название?

У НЯН есть вполне конкретная расшифровка, но мне пока не хотелось бы её раскрывать.

Обратная связь

E-mail: nyan_news@protonmail.com. Говорят, что с mail.ru письма не отправляются, пишите с других ящиков. Буду рад ответить!

Report Page