НЯН Whitepaper
Nyan NyanovichНЯН собирает сообщения с других новостных каналов в Телеграме, склеивает похожие сообщения в сюжеты и разбивает источники на 3 типа. Помогает быстро понимать, кто написал новость, и стоит ли ей доверять. Открытый исходный код.
Что означают эмодзи
🇷🇺 Красные. Российские официальные новости и прогосударственные каналы.
🌎 Синие. Оппозиционные и зарубежные каналы.
⚖️ Фиолетовые. Нейтральные каналы.
⏱ Самый оперативный. Канал, написавший первым.
👁️ Просмотры. Общее количество просмотров по всем постам в сюжете.
Как это работает
- Обход каналов. Поисковый робот раз в несколько десятков секунд обходит все каналы из списка, формируя поток документов за последние 6 часов.
- Разбивка на сюжеты. Поток документов разбивается на сюжеты, то есть на наборы документов про одни и те же события, но от разных источников. Как именно — написано здесь, здесь, или тут.
- Фильтрация сюжетов. Среди получившихся сюжетов оставляются только важные. Текущие критерии важности: количество источников и суммарное количество просмотров за разные промежутки времени. Среди всех больших сюжетов выбираются 40% лучших по просмотрам в час.
- Выбор аннотации. Для каждого сюжета нужно выбрать тот документ, который будет этот сюжет представлять — аннотацию. Текущие критерии выбора аннотации: русский язык, свежесть, не слишком длинный текст, похожесть на остальные документы сюжета.
- Отчёты. Раз в сутки, в 21:00 по Москве, обычно выходят отчёты по опубликованным сюжетам. В них можно увидеть, от каких источников были новости, и сколько их было.
Идеология
Гарантируется свобода массовой информации. Цензура запрещается. — Конституция РФ, ст. 29, ч. 5
Знание само по себе сила. — «Meditationes sacrae», Фрэнсис Бэкон
Я не разделяю ваших убеждений, но готов умереть за ваше право их высказывать. — «Друзья Вольтера», Эвелин Беатрис Холл
- Нужность новостей. Новости — важная часть общественной и политической жизни. Если бы никто не распространял новости, многие преступления остались бы безнаказанными. Не нужно игнорировать реальность.
- Выход из пузыря. «Пузыри фильтров» — это когда соцсети и персонализированные сервисы создают ошибочное впечатление, будто вашу точку зрения разделяет весь мир. Они поляризуют и радикализуют общество, а потому важно их избегать.
- Справедливое освещение. Если есть несколько позиций, то они должны одинаково присутствовать в канале, независимо от того, сколько источников на той или иной стороне.
Особенности
- Дисклеймер. Новости группируются автоматически. Сообщение не достоверно. Правдивость информации не проверяется. Потому что это действительно так, и я не хотел бы, чтобы вы принимали все новости за чистую монету. А также из-за законов РФ.
- Анонимность. Это нужно, чтобы лишний раз не подставляться. Я не считаю, что делаю что-то плохое, скорее наоборот. Но я не доверяю судебной системе, и лишний раз предпочёл бы не связываться с полицией или спецслужбами.
- Реклама. Её нет и не будет. Единственные мои расходы — содержание сервера, и стоит это меньше коммуналки в моей квартире. Кроме того, зарабатывание денег на распространении новостей — это уже совсем другая статья.
- Открытые исходники. Раз рекламы не будет, то нет никакого смысла скрывать исходный код агрегатора. Кроме того, открытость исходников повышает доверие к каналу.
- Один человек. Команда состоит только из одного человека. Я и инженер, и аналитик, и рекламщик. И расширять команду я не планирую.
Чего НЕ делает канал
- Проверка достоверности. Канал НЕ проверяет достоверность сообщений. Нет никакой проверки фактов и разоблачения фейков.
- Изменение оригинальных сообщений. Канал НЕ изменяет тексты источников, за исключением вырезания особенностей форматирования, дисклеймеров и текстовых копирайтов.
- Ручное вмешательство. Ничего НЕ исправляется руками, за исключением явных технических багов. При этом регулярно меняется сама система.
Вопросы
Почему ты уверен, что разбивка каналов на группы правильная?
Есть объективные данные о совместном попадании различных каналов в сюжеты. Один из способов эти данные отобразить — построить Word2Vec-like модель, где вместо предложений сюжеты, а вместо слов каналы. В результате для каждого канала получается вектор в некотором пространстве.
Чем вероятнее каналы встречаются в одних и тех же сюжетах, тем ближе должны лежать их векторы. Подобная визуализация есть на картинке ниже. Цветами отмечены разные группы источников. Красная и синяя группы явно выделяются на этой картинке.
Тексты постов в этом методе никак прямо не используются, только факты попадания постов разных каналов в один сюжет. Условно, если в сюжет попали TJ, DOXA и SOTA, то анализируемый "текст" будет выглядеть как "tj doxa sota". А вот скрипт для подсчёта.
На чём планируешь зарабатывать, если не на рекламе?
Заказы на аналитику и мониторинги, персонализированные каналы и боты. Но об этом пока рано говорить.
Пожертвования:
- BTC: bc1qdq02gd9m9zh702aeu654gs06zsefp2dmt3sha8
- ETH: 0x712754f570f32F95FcE3804E051dCD57fdC6F04B
Почему такое название?
У НЯН есть вполне конкретная расшифровка, но мне пока не хотелось бы её раскрывать.
Обратная связь
E-mail: nyan_news@protonmail.com. Говорят, что с mail.ru письма не отправляются, пишите с других ящиков. Буду рад ответить!