RAG ( Retrieval - Augmented - Generation )

Mattia Gatto
18 lug 2024
Tempo di lettura: 6 min

1. Introduzione

Retrieval-Augmented Generation (RAG) è un avanzato framework di intelligenza artificiale che integra il recupero di informazioni da grandi database (retrieval) con la generazione di risposte o testi (generation). Questa tecnologia rappresenta un passo significativo nell'evoluzione dei modelli di linguaggio naturale, permettendo di superare alcune limitazioni dei modelli generativi tradizionali.

Immagine 1: Architettura di RAG

2. Architettura di RAG

L'architettura di RAG combina due componenti principali:

Retriever: Questa componente è responsabile del recupero dei documenti rilevanti da un vasto corpus di dati. Utilizza modelli di recupero delle informazioni, come TF-IDF, BM25 o modelli basati su BERT, per cercare e identificare i documenti pertinenti.
Generator: Una volta che il retriever ha identificato i documenti rilevanti, questa componente utilizza un modello generativo, spesso basato su architetture Transformer come GPT-3, per generare risposte coerenti e contestualmente accurate utilizzando le informazioni recuperate.

Immagine 2: Funzionamento di RAG

Retriever

Il Retriever in RAG è progettato per recuperare informazioni rilevanti da un ampio database di conoscenze. Utilizza tecniche avanzate di recupero di informazioni, tra cui:

TF-IDF (Term Frequency-Inverse Document Frequency): Una tecnica di recupero classica che misura l'importanza di una parola in un documento rispetto a un corpus.
BM25: Un modello di recupero basato sulla probabilità che migliora l'accuratezza rispetto a TF-IDF.
Modelli BERT-based: Utilizzano rappresentazioni dense di documenti e query per migliorare la pertinenza del recupero. BERT (Bidirectional Encoder Representations from Transformers) consente al retriever di comprendere meglio il contesto delle query e dei documenti.

Generator

Il Generator è responsabile della produzione della risposta finale basata sui documenti recuperati. Utilizza modelli di linguaggio avanzati, tipicamente basati su architetture Transformer, come GPT-3. Le caratteristiche principali includono:

Attenzione multi-testa: Permette al modello di focalizzarsi su diverse parti del contesto per generare risposte coerenti.
Trasformazione bidirezionale: Mentre BERT è utilizzato principalmente per il retriever, modelli come GPT-3 sono usati per il generatore, sfruttando la capacità di comprendere e generare testo bidirezionalmente.

L'integrazione di queste tecnologie permette a RAG di eccellere in precisione e pertinenza, combinando la potenza del retrieval con la generazione avanzata di testo.

Vantaggi di RAG

Accuratezza: L'integrazione del retrieval di documenti specifici e aggiornati permette di migliorare significativamente l'accuratezza delle risposte.
Coerenza: Le risposte generate sono più contestualmente rilevanti e precise.
Flessibilità: Può essere applicato in vari domini, come chatbot, sistemi di domanda e risposta, e generazione di contenuti.

Applicazioni di RAG

Chatbot avanzati: Utilizzati in assistenti virtuali e customer service per fornire risposte precise e tempestive basate su un ampio database di conoscenze.
Sistemi di domanda e risposta: Utilizzati in motori di ricerca interni e assistenti personali per rispondere a domande specifiche.
Generazione di contenuti: Utilizzati in applicazioni editoriali e di marketing per creare articoli, rapporti e contenuti personalizzati basati su informazioni aggiornate.

3. Esempi di Codice in Python

Installazione delle librerie necessarie

pip install transformers faiss-cpu

Implementazione del sistema RAG

from transformers import RagTokenizer, RagRetriever, RagSequenceForGeneration
import torch

# Inizializzare il tokenizer, il retriever e il modello generativo
tokenizer = RagTokenizer.from_pretrained("facebook/rag-token-nq")
retriever = RagRetriever.from_pretrained("facebook/rag-token-nq", use_dummy_dataset=True)
model = RagSequenceForGeneration.from_pretrained("facebook/rag-token-nq", retriever=retriever)

# Input dell'utente
query = "Qual è la capitale della Francia?"

# Tokenizzazione dell'input
input_ids = tokenizer(query, return_tensors="pt").input_ids

# Generazione della risposta
outputs = model.generate(input_ids)

# Decodifica della risposta
response = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]

print(response)

Utilizzo di FAISS per l'indicizzazione

FAISS (Facebook AI Similarity Search) è una libreria che facilita l'indicizzazione e il recupero veloce di dati ad alta dimensione. Ecco un esempio di come integrarlo con RAG:

import faiss
import numpy as np
# Supponiamo di avere un semplice corpus

corpus = [
    "Parigi è la capitale della Francia.",
    "Londra è la capitale del Regno Unito.",
    "Berlino è la capitale della Germania."
]

# Creare embeddings per il corpus (qui usiamo embeddings casuali come esempio)
dimension = 512  # Dimensione dell'embedding
index = faiss.IndexFlatL2(dimension)
embeddings = np.random.random((len(corpus), dimension)).astype('float32')

# Indicizzare gli embeddings
index.add(embeddings)

# Query embedding (anche questo è casuale per l'esempio)
query_embedding = np.random.random((1, dimension)).astype('float32')

# Recuperare i documenti più simili
D, I = index.search(query_embedding, k=1)

print(f"Documento recuperato: {corpus[I[0][0]]}")

4. Un Caso d'Uso di RAG: Assistenza Clienti

Immaginiamo un'azienda che utilizza un sistema di chatbot per l'assistenza clienti. Il chatbot è integrato con un sistema RAG, che gli permette di recuperare informazioni dai manuali di prodotto, dalle FAQ aziendali e dai ticket precedenti, generando risposte accurate e pertinenti.

Scenario Un cliente chiede: "Come posso resettare la mia password?"
Risposta del chatbot senza RAG: "Per resettare la password, visita il nostro sito web."
Risposta del chatbot con RAG: "Per resettare la tua password, vai alla pagina di login del nostro sito web, clicca su 'Password dimenticata', e segui le istruzioni per ricevere un'email di reset. Se non ricevi l'email, controlla la tua cartella di spam o contatta il supporto al numero 123-456-789."
Implementazione Pratica

Caricamento del Corpus

In una situazione reale, il corpus potrebbe essere un insieme di documenti aziendali, guide utente, FAQ, ecc. Ecco come caricare e indicizzare un corpus reale.

import os
from transformers import BertTokenizer, BertModel

from sklearn.feature_extraction.text import TfidfVectorizer

# Caricamento dei documenti
documents = []

for filename in os.listdir('docs'):
    with open(os.path.join('docs', filename), 'r', encoding='utf-8') as file:
        documents.append(file.read())

# Creazione degli embeddings con BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# Funzione per generare embeddings
def embed_text(text):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True)
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).detach().numpy()

embeddings = np.vstack([embed_text(doc) for doc in documents])

# Indicizzazione con FAISS
dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings)

Recupero e Generazione di Risposte

Una volta che il corpus è indicizzato, possiamo recuperare i documenti rilevanti e generare risposte.

# Query dell'utente
query = "Come posso resettare la mia password?"

# Generare embedding per la query
query_embedding = embed_text(query)

# Recupero dei documenti più rilevanti
D, I = index.search(query_embedding, k=3)

retrieved_docs = [documents[i] for i in I[0]]

# Combina i documenti recuperati per generare una risposta
combined_docs = " ".join(retrieved_docs)

# Usare il modello generativo per creare una risposta
inputs = tokenizer(query + " " + combined_docs, return_tensors='pt', truncation=True, padding=True)
outputs = model.generate(inputs['input_ids'], max_length=200)

# Decodifica della risposta
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(response)

5. Conclusione

Il framework RAG rappresenta un significativo progresso nella generazione di risposte da parte dei sistemi di intelligenza artificiale. Combinando tecniche di recupero e generazione, RAG migliora l'accuratezza e la pertinenza delle risposte, rendendolo ideale per applicazioni come chatbot, sistemi di domanda e risposta, e generazione di contenuti.

Con il continuo avanzamento delle tecnologie di recupero e generazione di informazioni, il potenziale di RAG è destinato a crescere, offrendo soluzioni sempre più sofisticate e performanti.

RAG è un modello di apprendimento automatico che integra sistemi di recupero e modelli generativi per migliorare la generazione di risposte o output. Esistono tre tipi di RAG:

Frozen RAG: Comune nell'industria, rappresenta solo un Proof of Concept (POC).
Semifrozen RAG: Implementa recuperatori intelligenti adattivi senza modificare il modello generativo, combinando i retrievers con l'output finale.
Full Trainable RAG: Addestrato end-to-end, offre le migliori prestazioni ma è molto intensivo in termini di risorse.

Problemi attuali dei sistemi RAG tradizionali:

Disunità dei Componenti: I componenti sono addestrati separatamente.
Informazioni Non Aggiornate: La mancanza di aggiornamenti in tempo reale può ridurre la rilevanza e l'accuratezza delle risposte.
Scalabilità e Costo: Il recupero da grandi database e la generazione in tempo reale sono intensivi in termini di risorse.
Complessità nell'Integrazione: L'integrazione di componenti pre-addestrati può risultare complessa e non sempre fluida.

Come RAG 2.0 affronta questi problemi:

Training Unificato: Tutti i componenti sono addestrati insieme, migliorando l'integrazione e l'efficacia del sistema.
Efficienza Migliorata nel Recupero: Il processo di recupero diventa più contestuale e accurato.
Efficienza dei Costi: La semplificazione dell'architettura e il miglioramento della metodologia di addestramento riducono i costi computazionali.
Aggiornamenti in Tempo Reale Migliorati: Una migliore integrazione consente di gestire gli aggiornamenti dei dati in tempo reale più efficacemente.
Applicazione Aziendale e Sicurezza dei Dati: Progettato per le esigenze aziendali, operando in sicurezza senza necessità di condividere dati sensibili esternamente.

Nonostante questi progressi, l'importanza dei sistemi RAG potrebbe diminuire con il miglioramento delle capacità dei modelli autonomi. Innovazioni come Context Windows più ampie in modelli come Gemini 1.5 o Claude 3, che gestiscono sequenze di dati estese più efficacemente, possono ridurre la necessità di sistemi di recupero separati. Il miglioramento dell'elaborazione di queste lunghe sequenze a costi inferiori solleva dubbi sulla rilevanza continua dei sistemi RAG.

Il futuro di RAG dipenderà non solo dai suoi meriti tecnologici, ma anche dalle tendenze del settore verso soluzioni AI più integrate ed economiche.

Immagine 3: Il Futuro di RAG