Интеллектуальный парсер статей

Интеллектуальный парсер статей


pip install requests beautifulsoup4 newspaper3k spacy

python -m spacy download en_core_web_sm

import requests

from bs4 import BeautifulSoup

import spacy

from newspaper import Article


# Загружаем NLP-модель spaCy

nlp = spacy.load("en_core_web_sm")


# 📌 Функция для парсинга статей

def fetch_article(url):

  """Скачивает и извлекает текст статьи по URL"""

  article = Article(url)

  article.download()

  article.parse()

  return article.text


# 📌 Функция для анализа текста

def analyze_text(text):

  """Определяет ключевые слова в тексте"""

  doc = nlp(text)

  keywords = [token.text for token in doc if token.is_alpha and not token.is_stop]

  return ", ".join(set(keywords[:20])) # Берем 20 ключевых слов


# 📌 Тестируем на реальной статье

url = "https://www.bbc.com/news/technology-60072113"

article_text = fetch_article(url)

keywords = analyze_text(article_text)


print("🔹 Ключевые слова:", keywords)

Report Page