Интеллектуальный парсер статей
pip install requests beautifulsoup4 newspaper3k spacy
python -m spacy download en_core_web_sm
import requests
from bs4 import BeautifulSoup
import spacy
from newspaper import Article
# Загружаем NLP-модель spaCy
nlp = spacy.load("en_core_web_sm")
# 📌 Функция для парсинга статей
def fetch_article(url):
"""Скачивает и извлекает текст статьи по URL"""
article = Article(url)
article.download()
article.parse()
return article.text
# 📌 Функция для анализа текста
def analyze_text(text):
"""Определяет ключевые слова в тексте"""
doc = nlp(text)
keywords = [token.text for token in doc if token.is_alpha and not token.is_stop]
return ", ".join(set(keywords[:20])) # Берем 20 ключевых слов
# 📌 Тестируем на реальной статье
url = "https://www.bbc.com/news/technology-60072113"
article_text = fetch_article(url)
keywords = analyze_text(article_text)
print("🔹 Ключевые слова:", keywords)