Интеллектуальный парсер статей

February 12, 2025

pip install requests beautifulsoup4 newspaper3k spacy

python -m spacy download en_core_web_sm

import requests

from bs4 import BeautifulSoup

import spacy

from newspaper import Article

# Загружаем NLP-модель spaCy

nlp = spacy.load("en_core_web_sm")

# 📌 Функция для парсинга статей

def fetch_article(url):

"""Скачивает и извлекает текст статьи по URL"""

article = Article(url)

article.download()

article.parse()

return article.text

# 📌 Функция для анализа текста

def analyze_text(text):

"""Определяет ключевые слова в тексте"""

doc = nlp(text)

keywords = [token.text for token in doc if token.is_alpha and not token.is_stop]

return ", ".join(set(keywords[:20])) # Берем 20 ключевых слов

# 📌 Тестируем на реальной статье

url = "https://www.bbc.com/news/technology-60072113"

article_text = fetch_article(url)

keywords = analyze_text(article_text)

print("🔹 Ключевые слова:", keywords)

Report content on this page

Report Page