Agregador de noticias de Telegram: ¿qué es, por qué es necesario y cómo se ve?

Agregador de noticias de Telegram: ¿qué es, por qué es necesario y cómo se ve?

@mastelegram traducciones y artículos en español.

Idea

Hace poco más de un año, Pavel Durov anunció la creación de un agregador de noticias independiente basado en el contenido de noticias publicadas en Telegram. Esto se hizo en el contexto de los intentos de las autoridades rusas de obtener acceso incontrolado a los datos personales de los usuarios de Yandex y la tendencia generalmente continua la presión sobre el negocio de las empresas de TI rusas.

En el mismo mensaje, Pavel Durov pidió a los desarrolladores de Yandex.Novosy que se unan al equipo de Telegram y ayuden a crear "Como un servicio de recomendación de noticias a escala global, y sin censura política".Por lo tanto, el fundador de Telegram insinuó que los algoritmos de Yandex están sesgados para complacer a las autoridades rusas (hay diferentes opiniones sobre si esto es realmente así, pero no profundizaremos en este tema). Durov explicó además que la tecnología de visualización instantánea de noticias Instant View ya le permite leer noticias de 6000 publicaciones en todo el mundo desde cualquier dispositivo, y las estadísticas de sus vistas en cada país le permiten calcular algorítmicamente el contenido más relevante en este momento.

Tenemos la oportunidad de crear el primer agregador de noticias efectivo y gratuito en la historia de Internet , - Pavel Durov resumió su publicación.

Competencia

Públicamente, los empleados de Yandex.News no respondieron a esta propuesta, y Telegram no pospuso la idea de un agregador de noticias en segundo plano. Ya en noviembre de 2019, se anunció una competencia para crear un algoritmo de clasificación de noticias con un premio acumulado de € 100,000.

Según la información disponible para "Código Durov", detrás del apodo Mindful Kitten "esconde" un desarrollador de Google, que en el pasado era empleado de Yandex.Poisk. Y Mindful Squirrel es Ilya Gusev de Yandex.News y al menos otras 3 personas que contribuirán con este proyecto a GitHub . Ilya indicó su trabajo en Yandex en su perfil de Linkedin. Al mismo tiempo, los muchachos de Mindful Squirrel hicieron una interesante revisión técnica de su primer trabajo de competición, que recomendamos que se familiarice con ellos.

La lista de tareas para los concursantes incluía: resaltar texto en ruso e inglés, separar las noticias de otros materiales, agrupar las noticias por tema y en hilos, así como clasificar los hilos en los resultados de búsqueda. En la segunda etapa, que comenzó en mayo de 2020, se invitó a los participantes a refinar sus algoritmos de agrupamiento y crear un módulo sobre la base del cual se pueda lanzar un agregador de noticias.

Ambas etapas ya están completas y contest.com ha publicado una lista de ganadores con ejemplos de su trabajo que ya están trabajando con noticias reales y en tiempo real. Esto significa que ahora puede verificar cómo funcionan los algoritmos en la práctica y qué tan bien realizan el análisis, el almacenamiento y la indexación de los artículos entrantes.

Después del inicio de las pruebas y la identificación de errores por parte de todos, los jueces también agregaron estimaciones preliminares a los trabajos de la competencia. Mientras el jurado revisa cuidadosamente el código y distribuye € 100,000 entre los ganadores de los premios, nosotros en la oficina editorial hemos colocado la calificación de los participantes en una tabla separada y decidimos mirar hacia el futuro, es decir, ver en qué forma ya funciona. Pero primero, una pequeña teoría.

¿Cómo llegan las noticias al agregador?

Para que las noticias lleguen al agregador, el sitio debe ser compatible con Instant View para Telegram. Para una aparición más rápida en el agregador, es deseable que el enlace a las noticias se envíe a través del mensajero al menos una vez; así es como el algoritmo de Vista instantánea lo reconocerá de inmediato. Sin embargo, incluso si esto no sucede, los rastreadores internos que omiten proactivamente los enlaces en los dominios de Instant View vendrán al rescate.

Por supuesto, las noticias recibirán la mejor calificación cuando se publiquen, por ejemplo, en el canal oficial de Telegram, una publicación con una gran cantidad de suscriptores, ya que en este caso más personas lo leerán, y las vistas a través de Instant View son uno de los principales factores de clasificación.

¿Cómo los ordena y clasifica el agregador?

Esta es precisamente la tarea principal de los participantes del concurso: desarrollar un algoritmo que separe las noticias de todos los Instant View "sin procesar", las agrupe por tema y las combine en hilos: listas de noticias de diferentes recursos del mismo tema. Al mismo tiempo, los hilos y las noticias también deben clasificarse en los resultados de búsqueda, y esto está influenciado por varios factores a la vez, por ejemplo, el número de lecturas, la autoridad de la fuente e incluso la duración del artículo.

Hablamos con uno de los concursantes con el apodo Hip Hyena y descubrimos cómo se realiza la clasificación y clasificación en tales proyectos.


¿Cómo se definen los hilos? 

Los hilos combinan artículos que el algoritmo considera bastante similares. Se pueden usar varias características para evaluar la similitud.

Por ejemplo, hay un diccionario preparado previamente que convierte cualquier palabra en un determinado conjunto de números (vector); al combinar estos conjuntos de números para todas las palabras del artículo, podemos obtener el vector de todo el artículo. Si dos artículos tienen vectores similares, lo más probable es que tengan un tema similar.

O aquí hay otro enfoque: puede resaltar en cada artículo las palabras clave más importantes que se usan con más frecuencia que en otros artículos. La coincidencia de tales palabras es también una señal de que los artículos hablan sobre un tema y deben combinarse en un hilo.

¿Cómo se definen las categorías?

Todo es casi lo mismo que fusionarse en hilos, solo que aquí no se comparan artículos entre sí, sino cada artículo con un tema específico. Por ejemplo, para el tema "deporte", algunas palabras son más a menudo las palabras clave, para el tema "tecnología", otras. Qué tema resultó ser el más cercano: esa categoría se asigna al artículo.

¿Cómo se estructura la agenda?

Cuantas más publicaciones, mayor será el lugar en la parte superior? ¿Se tiene en cuenta la autoridad de la publicación? Aquí también se tienen en cuenta muchos factores, tanto para clasificar los artículos en un hilo como para ordenar los hilos en sí. Lo que importa es la autoridad de la fuente, y el número de publicaciones, y el tiempo de cada publicación, y el grado de similitud con todo el hilo, e incluso la longitud de cada artículo.


¿Cómo se ve?

Según estimaciones preliminares del jurado, el mejor trabajo fue creado por el equipo de Mindful Squirrel. En este ejemplo, mostraremos el trabajo del agregador. Inmediatamente, observamos que desde el punto de vista de la visualización, todos los trabajos son completamente idénticos: las únicas diferencias están en los algoritmos de análisis, agrupación y clasificación.

En el encabezado de la página principal, están disponibles una selección de idioma (EN/RU) y la fecha para la cual se emitirán las noticias. Por el momento, solo puede ver las noticias de hoy o del 25, 27 y 29 de mayo. Esto se debe al hecho de que inicialmente los participantes tuvieron acceso a la base de datos de Instant View solo durante este período, y ahora han abierto la agenda actual.

A continuación puede elegir una de las 8 categorías:

  • Lo principal (las fuentes de noticias más importantes de todas las categorías caen aquí)
  • Sociedad
  • Economía
  • Tecnología
  • Deporte
  • Entretenimiento
  • La ciencia
  • Otros (aquellas noticias que no encajan en ninguna de las categorías)

Y aquí puede especificar el intervalo de tiempo: para todo el día, para las últimas tres horas o para la última hora.

Al hacer clic en el título que nos interesa, nos encontramos en un hilo: una lista de todas las noticias sobre este tema con una indicación de la fuente.

Y ya al hacer clic en una de las líneas del hilo, la noticia se abre en un formulario adaptado para una carga rápida. Cuando el agregador está integrado en Telegram, las noticias se abrirán en consecuencia en la Vista instantánea.

En general, el trabajo de Mindful Squirrel y muchos otros participantes ya pueden usarse para seguir la agenda, a pesar de las deficiencias encontradas allí.

Seleccionamos proyectos que funcionan con la agenda actual (desafortunadamente, por alguna razón, la mayoría de los concursantes no muestran noticias actuales) e intentamos evaluarlos en términos de la calidad del tema en una escala de 10 puntos. En términos generales, qué tan bien el agregador recoge las noticias más resonantes en la parte superior. Naturalmente, evaluamos todo esto subjetivamente, a partir de nuestra evaluación de la "importancia" de ciertas fuentes de noticias. Y esto es lo que tenemos:

Gatito consciente - 9 puntos. Mis colegas acordaron que este es uno de los mejores trabajos sobre la calidad de la agenda. La página principal da lo que esperamos ver allí.

Ace Cock - 8.5 puntos. La agenda para casi todos los primeros puestos está bien formada: las noticias son frescas, pero la mayoría de ellas son noticias sociales y políticas, mientras que las tecnologías y otros temas carecen de atención.

Ardilla consciente - 8 puntos. Aquí las cimas también intentan ofrecer muchas noticias económicas y políticas. Esto no está mal, pero me gustaría más. En general, las noticias corresponden a la agenda, pero en los lugares aparecen notas muy antiguas, que tienen 24 horas, aunque hay noticias más relevantes.

Lémur dotado - 8 puntos. Las partes superiores muestran una variedad de temas, que incluyen tecnología, economía y política, noticias muy relevantes y de alto perfil. Sin embargo, también hay un gran problema: la agenda cambia lentamente durante el día y en algún momento puede volverse menos relevante.

Caracol peludo - 8 puntos. Una de las pocas obras en las que no hay un énfasis claro en la política. La agenda es relativamente actual, pero las noticias no siempre son interesantes. Principalmente sobre ciencia y tecnología, y otros temas son poco convincentes.

Croc sexy - 7 puntos. En general, refleja lo que está sucediendo aquí y ahora, pero me gustaría una mayor variedad de temas: el trabajo es claramente con énfasis en las noticias políticas, y prácticamente no hay tecnología ni ciencia. Además, se han perdido algunas noticias aisladas, pero importantes, incluso en política.

Bossy Gnu - 7 puntos. El único trabajo con un énfasis notable en los deportes. Hay problemas con los algoritmos: en primer lugar, la misma noticia se encuentra a menudo en dos tarjetas diferentes, y en segundo lugar, en el lugar del primer lugar, notamos fuentes de noticias muy extrañas como el coronavirus en el Kuban. Y casi no hay política, incluso es gracioso.

Happy Ladybird - 6 puntos. La noticia es relevante, pero no demasiado interesante y hay pocas. En la parte superior solo hay política y la "corona", esta última es mucho, aunque no hay nada especial en las notas mismas. Algunas noticias son muy tardías y poco citadas.

Swift Skunk - 3.5 puntos. Problema político con las noticias no más relevantes. Las noticias se acumulan mal en los hilos, muchas repetitivas. Por alguna razón, hay mucho énfasis en las noticias de Ucrania.

Mad Crow - 3 puntos. Problema desactualizado solo con una agenda sociopolítica, los hilos no funcionan correctamente.

Suave Penguin - 3 puntos. Resultados de búsqueda desactualizados, todos los encabezados comienzan con una letra minúscula, no hay fuentes en el hilo.

Lémur tranquilo - 2.5 puntos. Como señaló mi colega, la agenda de este trabajo se forma de tal manera que complazca a los patriotas de un país. Hay una falta de variedad en las noticias. Hay muchas noticias menores en la parte superior, aunque interesantes, pero no la principal. Hay un problema con los hilos.

Como se esperaba, los algoritmos aún fallan en algunos lugares, por ejemplo, forman incorrectamente hilos o analizan encabezados. Sin embargo, aquí debe tenerse en cuenta que estos son solo trabajos competitivos, y para cuando el agregador se implemente dentro de Telegram, el equipo de mensajería definitivamente trabajará en el "acabado". Por cierto, es demasiado pronto para evaluar la parte visual: estoy seguro de que el agregador se verá completamente diferente dentro de las aplicaciones móviles y los clientes de escritorio. Pero de una forma u otra, el significado general es claro. Solo queda entender por qué los usuarios necesitan esa funcionalidad.

¿Por qué se necesita esto?

Con la llegada de los canales, Telegram ha dejado de ser solo un mensajero. Para muchos usuarios, incluido yo, se ha convertido en la plataforma principal para leer noticias, reemplazando por completo Twitter y RSS en algún momento. Sin embargo, Telegram ahora carece de herramientas para descubrir nuevas fuentes interesantes dentro del messenger. Este problema también fue identificado por el participante mencionado anteriormente de numerosas competiciones Hip Hyena en nuestra entrevista con él:

Me parece que Telegram debería pensar en lo que se llama descubrimiento: formas de aprender sobre nuevos contenidos y fuentes interesantes. Ahora el messenger está bastante cerrado: puedes crear un canal para la actividad pública, pero solo puedes averiguarlo por algún medio de terceros.

En nuestra opinión, el agregador de noticias dentro del mensajero resuelve parcialmente este problema. Y el hecho de que él también sea independiente es una gran y agradable ventaja.

¿Cuándo esperar el lanzamiento?

La respuesta a esta pregunta probablemente no se conozca incluso en el equipo de Pavel Durov. Ahora el jurado necesita hacer un balance, elegir a los ganadores y luego proceder a integrar el agregador en Telegram, eligiendo la solución más adecuada. Hay tantas notas introductorias que no nos comprometeremos a adivinar. ¡Pero lo esperamos!.

Por Kirill Sergeev en kod.ru

Report Page