Linguaggio di programmazione R - RStudio

Mattia Gatto
12 giu 2023
Tempo di lettura: 7 min

Introduzione

Il linguaggio R è un linguaggio di programmazione utilizzato per l'analisi statistica, la manipolazione dei dati e la creazione di grafici. Ecco alcuni punti chiave e aspetti del linguaggio R:

Calcolo Statistico: R offre una vasta gamma di tecniche statistiche e grafiche per l'analisi e la manipolazione dei dati. Dispone di una vasta raccolta di pacchetti che coprono diverse metodologie statistiche, come modellazione lineare e non lineare, analisi delle serie temporali, clustering e altro.
Manipolazione dei Dati: R ha strumenti potenti per la manipolazione e la trasformazione dei dati. Fornisce funzioni e operatori per filtrare, ordinare, ristrutturare, unire e aggregare i dati, rendendo comodo lavorare con grandi set di dati.
Grafici e Visualizzazione: R ha ampie capacità per la creazione di grafici e visualizzazioni di alta qualità. Fornisce un sistema di tracciamento flessibile e personalizzabile che consente agli utenti di creare una vasta varietà di grafici, tra cui grafici a dispersione, grafici a barre, istogrammi, box plot e altro.
Strutture dei Dati: R supporta diverse strutture dei dati, tra cui vettori, matrici, array, liste e data frame. Queste strutture dei dati consentono uno storage e una manipolazione efficienti dei dati.
Interattività: R fornisce un ambiente di programmazione interattivo in cui gli utenti possono eseguire comandi e visualizzare risultati immediati. Supporta anche la scrittura di script, consentendo agli utenti di scrivere script e programmi per automatizzare compiti o eseguire analisi complesse.
Ecosistema di Pacchetti: R ha un vasto ecosistema di pacchetti, che sono estensioni software sviluppate dalla comunità per fornire funzionalità aggiuntive. Questi pacchetti coprono un'ampia gamma di applicazioni e permettono agli utenti di accedere a funzioni avanzate per l'analisi dei dati.

Il linguaggio R è ampiamente utilizzato in diversi settori, tra cui l'analisi dei dati, la statistica, la ricerca scientifica, la bioinformatica e altro ancora. La sua popolarità è dovuta alla sua flessibilità, alla vasta gamma di funzionalità e alla grande comunità di utenti e sviluppatori attivi.

Rstudio

RStudio è un ambiente di sviluppo integrato (IDE) progettato specificamente per il linguaggio di programmazione R. È una scelta popolare tra gli utenti di R grazie alla sua interfaccia facile da usare e all'ampia gamma di funzioni. È una scelta popolare tra gli utenti di R grazie alla sua interfaccia facile da usare e alla serie completa di funzioni. Ecco alcuni aspetti chiave di RStudio:

Gestione dello spazio di lavoro: RStudio offre un riquadro dello spazio di lavoro in cui è possibile visualizzare e gestire gli oggetti R, come variabili, funzioni e insiemi di dati. È possibile ispezionare e modificare facilmente gli oggetti nell'area di lavoro, il che aiuta nell'esplorazione dei dati e nel debug.
Editor di codice: RStudio dispone di un potente editor di codice che offre funzioni come l'evidenziazione della sintassi, il completamento del codice e l'indentazione automatica. Migliora la leggibilità del codice e fornisce suggerimenti utili durante la scrittura del codice R, rendendo il processo di sviluppo più efficiente.
Console: La console di RStudio consente di interagire con R direttamente. È possibile eseguire comandi R, visualizzare l'output e ricevere risultati immediati. Si tratta di un ambiente interattivo che consente di sperimentare con il codice e di verificare rapidamente le ipotesi.
Guida e documentazione integrate: RStudio consente di accedere facilmente all'ampia documentazione e alle risorse di aiuto di R. È possibile visualizzare la documentazione di funzioni, pacchetti e set di dati di R direttamente all'interno dell'IDE. Questa funzione è particolarmente utile per comprendere l'uso di funzioni specifiche o per esplorare pacchetti sconosciuti.
Gestione dei pacchetti: RStudio semplifica la gestione dei pacchetti fornendo un gestore di pacchetti integrato. È possibile installare, aggiornare e gestire i pacchetti R utilizzando un'interfaccia intuitiva. Permette inoltre di passare facilmente da una versione all'altra di R e di gestire le dipendenze dei pacchetti.
Visualizzazione dei dati: RStudio include funzionalità integrate per la creazione di visualizzazioni interattive e statiche dei dati. Supporta le librerie di visualizzazione più diffuse, come ggplot2, plotly e lattice, semplificando la generazione di vari tipi di grafici, diagrammi e diagrammi.
Flusso di lavoro integrato: RStudio supporta un flusso di lavoro continuo per lo sviluppo di progetti R. Offre funzioni di gestione dei progetti, integrazione del controllo di versione (ad esempio, Git) e un visualizzatore di file integrato. Queste funzioni aiutano a organizzare il codice, a collaborare con gli altri e a mantenere un processo di sviluppo strutturato.
Sviluppo di applicazioni Shiny: RStudio offre supporto per lo sviluppo di applicazioni web utilizzando il framework Shiny. Shiny consente di creare dashboard interattivi, visualizzazioni di dati e applicazioni interattive basate sui dati, il tutto all'interno dell'ambiente R.

Come installarlo?

Ecco una guida passo-passo su come scaricare e installare RStudio sul proprio computer:

Visita il sito ufficiale di RStudio all'indirizzo https://www.rstudio.com/.
Seleziona RStudio Desktop: Nella pagina principale di RStudio, fare clic sul pulsante "Download" nella sezione "RStudio Desktop".
Scegliere la versione di RStudio: Nella pagina di download, sono disponibili diverse versioni di RStudio per il download. La versione consigliata è di solito la "RStudio Desktop Open Source License", che è gratuita. Se si desiderano funzionalità aggiuntive o supporto tecnico, è possibile scegliere anche una delle versioni a pagamento.
Selezionare il sistema operativo: Sotto la versione desiderata di RStudio, è presente un elenco dei sistemi operativi supportati. Fare clic sul link corrispondente al proprio sistema operativo (ad esempio, Windows, macOS, Linux) per scaricare il file di installazione appropriato.
Scaricare il file di installazione: Dopo aver selezionato il sistema operativo, si avvierà il download del file di installazione di RStudio. Una volta completato il download, individuare il file di installazione sul proprio computer.
Installazione di RStudio: Avviare il file di installazione scaricato e seguire le istruzioni guidate per l'installazione di RStudio. Durante l'installazione, potrebbero essere richiesti alcuni passaggi come l'accettazione dei termini di utilizzo e la selezione della cartella di installazione. È possibile lasciare le impostazioni predefinite per la maggior parte dei passaggi, a meno che si voglia personalizzarle.
Avviare RStudio: Dopo aver completato l'installazione, è possibile avviare RStudio dal menu delle applicazioni del proprio sistema operativo o facendo clic sull'icona di RStudio sul desktop, se presente. Si aprirà la finestra di RStudio con l'interfaccia di sviluppo integrata pronta per l'utilizzo.

Ora RStudio sarà installato sul proprio computer e sarà possibile iniziare a utilizzarlo per lo sviluppo e l'analisi dei dati utilizzando il linguaggio R. Assicurarsi di avere anche R installato sul proprio sistema, in quanto RStudio richiede R per funzionare correttamente. È possibile scaricare R dal sito ufficiale di R all'indirizzo https://www.r-project.org/.

Casi d'uso:

1. Calcolo della media di un vettore di numeri

Nel complesso, RStudio migliora la produttività e la facilità d'uso dei programmatori R e degli analisti di dati. La sua interfaccia intuitiva, le sue potenti funzioni e l'ampia integrazione con i pacchetti R lo rendono una scelta popolare per lavorare con il linguaggio R.

con un esempio di codice in R che calcola la media di un vettore di numeri:

# Definizione del vettore
numeri <- c(2, 4, 6, 8, 10)# Calcolo della media
media <- mean(numeri)# Stampare il risultato
print(media)

In questo esempio, è stato definito un vettore chiamato "numeri" che contiene i valori 2, 4, 6, 8 e 10. Successivamente, è stata utilizzata la funzione mean() per calcolare la media dei numeri nel vettore. Infine, è stato stampato il risultato utilizzando la funzione print().

L'output sarà:

[1] 6

Questo indica che la media dei numeri nel vettore è 6.

2. Caso d'uso: creazione di un modello di regressione lineare

Ecco un esempio di creazione di un modello di machine learning di regressione lineare in R utilizzando il dataset Boston Housing:

# Caricamento del dataset Boston Housing
data(Boston, package = "MASS")# Creazione del set di addestramento e test
set.seed(123)
train_indices <- sample(1:nrow(Boston), 0.7 * nrow(Boston))
train_data <- Boston[train_indices, ]
test_data <- Boston[-train_indices, ]# Creazione del modello di regressione lineare
lm_model <- lm(medv ~ ., data = train_data)# Effettuare le predizioni sul set di test
predictions <- predict(lm_model, newdata = test_data)# Calcolare l'errore quadratico medio (RMSE)
rmse <- sqrt(mean((test_data$medv - predictions)^2))# Stampa del RMSE
print(paste("RMSE:", rmse))

In questo esempio, è stato caricato il dataset Boston Housing utilizzando la funzione data() del pacchetto "MASS". Successivamente, è stato suddiviso il dataset in un set di addestramento (70% dei dati) e un set di test (30% dei dati) utilizzando la funzione sample() per selezionare in modo casuale gli indici delle righe.

Successivamente, è stato creato un modello di regressione lineare utilizzando la funzione lm(). La formula medv ~ . specifica che stiamo cercando di prevedere la variabile "medv" (valore mediano delle abitazioni) utilizzando tutte le altre variabili disponibili nel dataset.

Dopo aver addestrato il modello, è stata utilizzata la funzione predict() per effettuare le predizioni sul set di test. Successivamente, si è calcolato l'errore quadratico medio (RMSE) tra i valori reali delle case nel set di test (test_data$medv) e le predizioni del modello.

Infine, è stato stampato il valore RMSE utilizzando la funzione print().

L'output sarà qualcosa del genere:

[1] "RMSE: 5.469719"

Questo indica che l'errore quadratico medio (RMSE) del modello di regressione lineare è di circa 5.47. Un RMSE più basso indica una migliore precisione del modello di machine learning.

È possibile utilizzare la libreria ggplot2 per creare un grafico per visualizzare i risultati ottenuti. Ecco un esempio di come creare un grafico a dispersione dei valori predetti rispetto ai valori reali:

library(ggplot2)# Creazione del dataframe per il confronto dei valori reali e predetti
comparison_df <- data.frame(
  Real = test_data$medv,
  Predicted = predictions
)# Creazione del grafico a dispersione
scatter_plot <- ggplot(comparison_df, aes(x = Real, y = Predicted)) +
  geom_point() +
  geom_abline(intercept = 0, slope = 1, color = "red", linetype = "dashed") +
  labs(x = "Valori reali", y = "Valori predetti") +
  ggtitle("Confronto tra valori reali e predetti")# Visualizzazione del grafico
print(scatter_plot)

In questo esempio, è stato creato un dataframe comparison_df che contiene due colonne: "Real" (valori reali) e "Predicted" (valori predetti).

Successivamente, è stato utilizzato ggplot() per creare un oggetto di base per il grafico. Utilizzando geom_point(), sono stati aggiunti i punti sul grafico che rappresentano i valori reali e predetti. geom_abline() viene utilizzato per tracciare una linea diagonale tratteggiata rossa che rappresenta una perfetta corrispondenza tra i valori reali e predetti.

Le funzioni labs() e ggtitle() vengono utilizzate per impostare le etichette degli assi e il titolo del grafico, rispettivamente.

Infine, utilizzando print(), è stato stampato il grafico a dispersione.

Il grafico mostrerà i punti che rappresentano i valori reali sulle ordinate e i valori predetti sulle ascisse. Una buona corrispondenza tra i punti e la linea diagonale tratteggiata indica una buona accuratezza del modello di regressione lineare.

Quando si esegue il codice, si dovrebbe vedere l'output del grafico nella finestra di visualizzazione dei grafici di RStudio o in una finestra separata del tuo ambiente R. È possibile anche salvare l'immagine del grafico in un file utilizzando la funzione ggsave() della libreria ggplot2.

Ecco un esempio di come salvare l'immagine del grafico come file PNG:

ggsave("confronto_valori.png", plot = scatter_plot, width = 6, height = 4, dpi = 300)

Questo salverà l'immagine del grafico come file "confronto_valori.png" nella directory di lavoro corrente. Si può anche specificare il percorso desiderato per salvare l'immagine modificando il percorso nel primo argomento della funzione ggsave().