Kaip sukurti automatizuotą gerų naujienų filtravimo sistemą naudojant Python ir mašininio mokymosi algoritmus

Kasdien mus užgriūva informacijos lavina – tūkstančiai straipsnių, pranešimų, naujienų. Dauguma jų neša neigiamą krūvį: karai, katastrofos, skandalai. O kur tos gerų naujienų? Jos egzistuoja, bet dažnai paskęsta šiukšlių jūroje. Automatizuota filtravimo sistema gali tapti išganymu tiems, kurie nori išlikti informuoti, bet neprarasti proto nuo nuolatinio negatyvo.

Problema tik ta, kad sukurti tikrai veikiantį filtrą nėra taip paprasta, kaip gali atrodyti iš pirmo žvilgsnio. Reikia ne tik techninio išmanymo, bet ir gilaus supratimo apie tai, kas iš tikrųjų sudaro „gerą naujieną”.

Duomenų rinkimas ir paruošimas: kur slypi pirmieji spąstai

Pradėkime nuo pagrindų. Jums reikės duomenų – daug duomenų. Ir čia iškart susidursite su pirma problema: kur gauti kokybiškas naujienas? RSS kanalai, naujienų API, web scraping – visi šie metodai turi savo trūkumų.

RSS kanalai yra patogūs, bet dažnai pateikia tik trumpus aprašymus. News API tipo sprendimai kainuoja pinigų ir turi apribojimus. Web scraping veikia, bet reikalauja nuolatinio palaikymo, nes svetainės keičia savo struktūrą.

Štai praktiškas sprendimas naudojant feedparser biblioteką:

import feedparser
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime

class NewsCollector:
    def __init__(self):
        self.rss_feeds = [
            'https://feeds.bbci.co.uk/news/rss.xml',
            'https://rss.cnn.com/rss/edition.rss',
            'https://www.reddit.com/r/UpliftingNews/.rss'
        ]
    
    def collect_articles(self):
        articles = []
        for feed_url in self.rss_feeds:
            try:
                feed = feedparser.parse(feed_url)
                for entry in feed.entries:
                    article = {
                        'title': entry.title,
                        'summary': entry.summary if hasattr(entry, 'summary') else '',
                        'link': entry.link,
                        'published': entry.published,
                        'source': feed.feed.title
                    }
                    articles.append(article)
            except Exception as e:
                print(f"Klaida renkant iš {feed_url}: {e}")
        return articles

Bet čia dar ne viskas. Surinkti duomenys dažnai būna netvarkingi. HTML tagai, keisti simboliai, dublikatai – visa tai reikės išvalyti. Ir dar viena problema: kaip apibrėžti, kas yra „gera naujienų”? Ar tai tik pozityvūs įvykiai? O gal svarbūs, bet neutralūs pranešimai? Šis klausimas iš esmės formuoja visos sistemos logiką.

Tekstų apdorojimas: kodėl standartiniai metodai neveikia

Daugelis pamėgėjų mano, kad užteks kelių raktažodžių sąrašo – „laimėjimas”, „sėkmė”, „džiaugsmas” – ir sistema veiks. Realybė žymiai sudėtingesnė. Kontekstas yra viskas.

Pavyzdžiui, sakinys „Teroristas sulaikytas” techniškai yra pozityvi naujienų, bet joje vis tiek yra žodis „teroristas”. O „Ekonomikos augimas sulėtėjo” – čia „augimas” yra pozityvus žodis, bet bendra žinia negatyvi.

Štai kodėl reikia rimtesnių NLP metodų:

import nltk
from nltk.sentiment import SentimentIntensityAnalyzer
from textblob import TextBlob
import spacy
from transformers import pipeline

class TextProcessor:
    def __init__(self):
        self.sia = SentimentIntensityAnalyzer()
        self.nlp = spacy.load("en_core_web_sm")
        self.emotion_classifier = pipeline(
            "text-classification",
            model="j-hartmann/emotion-english-distilroberta-base"
        )
    
    def analyze_sentiment(self, text):
        # VADER sentiment
        vader_scores = self.sia.polarity_scores(text)
        
        # TextBlob sentiment
        blob = TextBlob(text)
        textblob_sentiment = blob.sentiment.polarity
        
        # Transformers-based emotion detection
        emotions = self.emotion_classifier(text)
        
        return {
            'vader_compound': vader_scores['compound'],
            'textblob_polarity': textblob_sentiment,
            'dominant_emotion': emotions[0]['label'],
            'emotion_score': emotions[0]['score']
        }
    
    def extract_entities(self, text):
        doc = self.nlp(text)
        entities = [(ent.text, ent.label_) for ent in doc.ents]
        return entities

Tačiau ir šie metodai turi apribojimų. VADER gerai veikia su socialinių tinklų tekstais, bet gali klaidingai interpretuoti formalius naujienų tekstus. TextBlob yra paprastas, bet ne itin tikslus. Transformer modeliai tiksliausi, bet lėti ir reikalauja daug išteklių.

Mašininio mokymosi modelių pasirinkimas: teorija prieš praktiką

Dabar ateina smagioji dalis – modelių kūrimas. Teoriškai turite daugybę variantų: nuo paprastų logistinės regresijos modelių iki sudėtingų BERT transformerių. Praktiškai? Dauguma projektų žlunga būtent čia.

Pirmiausia reikia nuspręsti: ar tai klasifikacijos (gera/bloga), ar reitingavimo (skalė nuo 1 iki 10) problema? Klasifikacija paprastesnė, bet mažiau lanksti. Reitingavimas tikslesnį, bet sunkiau interpretuojamas.

Štai kaip galėtų atrodyti hibridinis sprendimas:

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier, GradientBoostingRegressor
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, mean_squared_error
import numpy as np

class NewsClassifier:
    def __init__(self):
        self.vectorizer = TfidfVectorizer(
            max_features=10000,
            ngram_range=(1, 3),
            stop_words='english'
        )
        self.sentiment_classifier = LogisticRegression()
        self.quality_regressor = GradientBoostingRegressor()
        
    def prepare_features(self, articles):
        # Tekstinės savybės
        text_features = self.vectorizer.fit_transform(
            [f"{article['title']} {article['summary']}" for article in articles]
        )
        
        # Papildomos savybės
        additional_features = []
        for article in articles:
            features = [
                len(article['title']),
                len(article['summary']),
                article['title'].count('!'),
                article['title'].count('?'),
                1 if any(word in article['title'].lower() 
                        for word in ['breaking', 'urgent', 'alert']) else 0
            ]
            additional_features.append(features)
        
        return np.hstack([text_features.toarray(), additional_features])
    
    def train(self, articles, labels, quality_scores):
        X = self.prepare_features(articles)
        
        # Treniruojame klasifikatorių (gera/bloga)
        X_train, X_test, y_train, y_test = train_test_split(
            X, labels, test_size=0.2, random_state=42
        )
        self.sentiment_classifier.fit(X_train, y_train)
        
        # Treniruojame kokybės vertintoją
        _, _, q_train, q_test = train_test_split(
            X, quality_scores, test_size=0.2, random_state=42
        )
        self.quality_regressor.fit(X_train, q_train)
        
        return self.evaluate(X_test, y_test, q_test)

Bet štai kur slypi problema: jums reikės pažymėtų duomenų. Daug pažymėtų duomenų. O tai reiškia, kad kažkas turi sėdėti ir rankiniu būdu vertinti tūkstančius straipsnių. Alternatyva – naudoti weak supervision arba transfer learning, bet tada tikslumas nukentės.

Realaus laiko apdorojimas: kai teorija susiduria su tikrove

Sukūrėte modelį, jis veikia laboratorijos sąlygomis. Dabar reikia jį paleisti realiu laiku. Ir čia prasideda tikroji kančia.

Pirmiausia – našumas. Jei jūsų sistema apdoroja 10 straipsnių per minutę, o naujienų srautas – 1000 per minutę, turite problemą. Antra – atminties suvartojimas. Transformer modeliai gali „suėsti” kelis gigabaitus RAM. Trečia – patikimumas. Kas nutiks, jei RSS kanalas nukris? O jei API pakeis formatą?

import asyncio
import aiohttp
from concurrent.futures import ThreadPoolExecutor
import redis
from celery import Celery

class RealTimeNewsProcessor:
    def __init__(self):
        self.redis_client = redis.Redis(host='localhost', port=6379, db=0)
        self.celery_app = Celery('news_processor', broker='redis://localhost:6379')
        self.executor = ThreadPoolExecutor(max_workers=4)
        
    async def fetch_news_async(self, urls):
        async with aiohttp.ClientSession() as session:
            tasks = []
            for url in urls:
                tasks.append(self.fetch_single_feed(session, url))
            return await asyncio.gather(*tasks, return_exceptions=True)
    
    async def fetch_single_feed(self, session, url):
        try:
            async with session.get(url, timeout=10) as response:
                content = await response.text()
                return feedparser.parse(content)
        except Exception as e:
            print(f"Klaida gaunant {url}: {e}")
            return None
    
    @celery_app.task
    def process_article_batch(self, articles):
        # Apdorojame straipsnių paketą atskirame procese
        processed = []
        for article in articles:
            try:
                sentiment = self.analyze_sentiment(article['text'])
                quality = self.assess_quality(article)
                processed.append({
                    'article': article,
                    'sentiment': sentiment,
                    'quality': quality,
                    'processed_at': datetime.now().isoformat()
                })
            except Exception as e:
                print(f"Klaida apdorojant straipsnį: {e}")
        return processed
    
    def cache_results(self, article_id, results, ttl=3600):
        # Išsaugome rezultatus cache'e
        self.redis_client.setex(
            f"article:{article_id}", 
            ttl, 
            json.dumps(results)
        )

Svarbu suprasti, kad realaus laiko sistema – tai ne tik kodas, bet ir infrastruktūra. Jums reikės duomenų bazės, cache sistemos, eilių valdymo, monitoringo. Ir visa tai turi veikti 24/7.

Tikslumas ir šališkumas: kodėl „objektyvus” algoritmas neegzistuoja

Dabar pats skaudžiausias klausimas: ar jūsų sistema tikrai objektyvi? Atsakymas trumpas – ne. Ir niekada nebus.

Jūsų duomenų šaltiniai jau yra šališki. BBC kitaip pateiks žinią nei CNN. Reddit’o r/UpliftingNews turi savo supratimą apie tai, kas yra „gera naujienų”. Jūsų pažymėti duomenys atspindi jūsų (arba jūsų komandos) pasaulėžiūrą.

Be to, „geros naujienos” skirtingiems žmonėms reiškia skirtingus dalykus. Ekonomikos augimas gali džiuginti investuotojus, bet liūdinti aplinkosaugininkus. Technologijų plėtra – programuotojus, bet gąsdinti darbuotojus, kuriems gresia automatizacija.

class BiasDetector:
    def __init__(self):
        self.source_bias_scores = {
            'BBC': 0.1,  # Lengvai kairysis
            'CNN': -0.2,  # Kairysis
            'Fox News': 0.3,  # Dešinysis
            # ... ir t.t.
        }
        
    def detect_potential_bias(self, article, classification_result):
        bias_indicators = []
        
        # Šaltinio šališkumas
        source = article.get('source', '')
        if source in self.source_bias_scores:
            bias_indicators.append({
                'type': 'source_bias',
                'score': self.source_bias_scores[source],
                'description': f'Šaltinis {source} turi žinomą šališkumą'
            })
        
        # Emociškai krūviškai žodžiai
        emotional_words = ['amazing', 'terrible', 'shocking', 'incredible']
        text = f"{article['title']} {article['summary']}".lower()
        emotional_count = sum(1 for word in emotional_words if word in text)
        
        if emotional_count > 3:
            bias_indicators.append({
                'type': 'emotional_language',
                'score': emotional_count / 10,
                'description': 'Straipsnyje daug emociškai krūviškai žodžių'
            })
        
        return bias_indicators
    
    def adjust_classification(self, original_score, bias_indicators):
        # Koreguojame rezultatą atsižvelgiant į galimą šališkumą
        adjustment = sum(indicator['score'] for indicator in bias_indicators)
        return max(0, min(1, original_score - adjustment))

Šališkumo problema neišsprendžiama techniškai. Galite jį aptikti, sumažinti, bet ne pašalinti visiškai. Svarbu tai pripažinti ir būti skaidriems dėl sistemos apribojimų.

Vartotojo sąsaja ir grįžtamasis ryšys: kai technologija sutinka žmogų

Puikus algoritmas be geros sąsajos – kaip Ferrari be ratų. Vartotojai turi suprasti, kaip sistema veikia, kodėl ji pasirinko būtent šias naujienas, ir turėti galimybę ją koreguoti.

Bet čia slypi paradoksas: kuo daugiau valdymo galimybių duodate vartotojui, tuo sudėtingesnė tampa sistema. O žmonės nori paprastumo. Kaip rasti balansą?

from flask import Flask, render_template, request, jsonify
import json

app = Flask(__name__)

class NewsInterface:
    def __init__(self, classifier):
        self.classifier = classifier
        self.user_feedback = {}
    
    @app.route('/news')
    def get_filtered_news():
        # Gauti vartotojo nustatymus
        sentiment_threshold = float(request.args.get('sentiment', 0.5))
        quality_threshold = float(request.args.get('quality', 0.6))
        categories = request.args.getlist('categories')
        
        # Gauti ir filtruoti naujienas
        raw_news = self.fetch_latest_news()
        filtered_news = []
        
        for article in raw_news:
            prediction = self.classifier.predict(article)
            
            if (prediction['sentiment'] >= sentiment_threshold and 
                prediction['quality'] >= quality_threshold):
                
                # Pridėti paaiškinimą
                article['explanation'] = self.generate_explanation(
                    article, prediction
                )
                filtered_news.append(article)
        
        return jsonify({
            'articles': filtered_news,
            'total_processed': len(raw_news),
            'filters_applied': {
                'sentiment_threshold': sentiment_threshold,
                'quality_threshold': quality_threshold
            }
        })
    
    def generate_explanation(self, article, prediction):
        explanation = []
        
        if prediction['sentiment'] > 0.7:
            explanation.append("Straipsnis turi labai pozityvų toną")
        elif prediction['sentiment'] > 0.5:
            explanation.append("Straipsnis turi šiek tiek pozityvų toną")
            
        if prediction['quality'] > 0.8:
            explanation.append("Aukšta straipsnio kokybė")
            
        key_phrases = prediction.get('key_phrases', [])
        if key_phrases:
            explanation.append(f"Svarbūs žodžiai: {', '.join(key_phrases[:3])}")
            
        return ". ".join(explanation)
    
    @app.route('/feedback', methods=['POST'])
    def collect_feedback():
        data = request.json
        article_id = data['article_id']
        user_rating = data['rating']  # 1-5
        user_comment = data.get('comment', '')
        
        # Išsaugoti grįžtamąjį ryšį
        self.user_feedback[article_id] = {
            'rating': user_rating,
            'comment': user_comment,
            'timestamp': datetime.now().isoformat()
        }
        
        # Naudoti mokymui
        self.retrain_with_feedback()
        
        return jsonify({'status': 'success'})

Grįžtamasis ryšys kritiškai svarbus. Be jo jūsų sistema niekada nepagerės. Bet čia vėl problema – kaip motyvuoti vartotojus duoti grįžtamąjį ryšį? Dauguma žmonių tiesiog nori gauti rezultatą, o ne mokyti jūsų algoritmą.

Kai algoritmai susiduria su chaoso teorija

Sukūrėte sistemą, ji veikia, vartotojai patenkinti. Bet pasaulis keičiasi. Prasideda pandemija, karas, ekonomikos krizė. Jūsų modelis, treniruotas „normaliais” laikais, staiga pradeda klaidingai klasifikuoti naujienas.

Arba dar blogiau – jūsų sistema pati pradeda formuoti naujienų darbotvarkę. Žmonės skaito tik tai, ką ji rekomenduoja. Žiniasklaidos šaltiniai pradeda prisitaikyti prie algoritmo. Susidaro uždaras ciklas, kuriame tikrovė deformuojasi.

Šie iššūkiai neturi techninio sprendimo. Reikia nuolatinio žmogaus įsikišimo, etinių apribojimų, skaidrumo. Sistema turi būti ne tik veiksminga, bet ir atsakinga.

Praktinis patarimas: įkomponuokite į sistemą „circuit breaker” mechanizmą. Jei staiga 90% naujienų klasifikuojamos kaip „blogos”, arba jei vartotojų grįžtamasis ryšys drastiškai pablogėja – sistema turi sustoti ir perspėti administratorių. Geriau jokios automatizacijos nei klaidinga.

Galiausiai, nepamirškite, kad jūs kuriate ne tik technologinį sprendimą, bet ir formuojate tai, kaip žmonės suvoks pasaulį. Tai didžiulė atsakomybė. Jūsų „gerų naujienų” filtras gali padėti žmonėms išlikti optimistiškiems ir motyvuotiems. Arba gali juos atitraukti nuo svarbių, bet nemalonių realybės aspektų.

Automatizuota naujienų filtravimo sistema – tai ne tik programavimo iššūkis. Tai filosofijos, psichologijos, etikos ir technologijų sankryža. Ir būtent dėl to ji yra tokia sudėtinga ir tokia įdomi.