Capitolo 4. Dietro le quinte

Indice

La registrazione della cronologia di Mercurial
Memorizzare la cronologia di un singolo file
Gestire i file monitorati
Registrare le informazioni di changeset
Relazioni tra le revisioni
Memorizzazione sicura ed efficiente
Memorizzazione efficiente
Operazioni sicure
Reperimento veloce
Digressione: l’influenza della compressione video
Identificazione e integrità forte
Cronologia delle revisioni, ramificazioni e unioni
La directory di lavoro
Cosa succede quando eseguite un commit
Creare una nuova testa
Unire i cambiamenti
Le unioni e i cambiamenti di nome
Altre caratteristiche di progettazione interessanti
Compressione intelligente
Ricompressione di rete
Ordinamento e atomicità delle operazioni di lettura e scrittura
Accesso concorrente
Accesso sicuro al dirstate
Evitare le operazioni di seek
Altre informazioni contenute nel dirstate

Diversamente da molti sistemi di controllo di revisione, Mercurial è costruito sulla base di concetti abbastanza semplici da facilitare la comprensione del modo in cui il software funziona realmente. Conoscere questi dettagli non è certamente necessario, per cui potete tranquillamente saltare questo capitolo. Tuttavia, penso che otterrete di più dal software conoscendo il «modello concettuale» del suo funzionamento.

Essere in grado di capire quello che accade dietro le quinte mi dà una certa garanzia che Mercurial sia stato attentamente progettato per essere sia sicuro che efficiente. Analogamente, è importante che per me sia facile avere un’idea corretta di quello che il software sta facendo mentre svolgo un’attività di controllo di revisione, in modo da abbassare la probabilità di venire sorpreso dal suo comportamento.

Inizieremo questo capitolo parlando dei concetti chiave alla base della progettazione di Mercurial, poi proseguiremo discutendo alcuni dei dettagli più interessanti della sua implementazione.

La registrazione della cronologia di Mercurial

Memorizzare la cronologia di un singolo file

Quando Mercurial tiene traccia delle modifiche a un file, memorizza la cronologia di quel file in un oggetto di metadati chiamato filelog (letteralmente, registro del file). Ogni voce in un filelog contiene informazioni sufficienti a ricostruire una revisione del file di cui tiene traccia. I filelog sono memorizzati come file nella directory .hg/store/data. Un filelog contiene due tipi di informazione: dati di revisione, più un indice per aiutare Mercurial a trovare una revisione in maniera efficiente.

Il filelog di un file di grandi dimensioni o che abbia una lunga cronologia viene memorizzato in due file separati per i dati (con un suffisso «.d») e l’indice (con un suffisso «.i»). Per file di piccole dimensioni con una cronologia ridotta, i dati di revisione e l’indice vengono combinati in un singolo file «.i». La corrispondenza tra un file nella directory di lavoro e il filelog che tiene traccia della sua cronologia nel repository è illustrata nella Figura 4.1, «Relazioni tra i file nella directory di lavoro e i filelog nel repository».

Figura 4.1. Relazioni tra i file nella directory di lavoro e i filelog nel repository

XXX add text

Gestire i file monitorati

Mercurial usa una struttura chiamata manifest (in italiano, manifesto) per collezionare informazioni sui file di cui tiene traccia. Ogni voce nel manifest contiene informazioni sui file presenti in un singolo changeset e registra quali file sono contenuti nel changeset, la revisione di ogni file e alcuni altri metadati sui file.

Registrare le informazioni di changeset

Il changelog (letteralmente, registro dei cambiamenti) contiene informazioni su tutti i changeset. Ogni revisione memorizza chi ha inserito un cambiamento, il commento del changeset, altre informazioni relative al changeset e la revisione del manifest da usare.

Relazioni tra le revisioni

Nell’ambito di un changelog, di un manifest, o di un filelog, ogni revisione mantiene un puntatore al suo genitore diretto (o ai suoi due genitori, se è una revisione di unione). Come ho già detto, esistono anche relazioni tra revisioni attraverso queste strutture, e tali relazioni sono di natura gerarchica.

Per ogni changeset nel repository, esiste esattamente una revisione memorizzata nel changelog. Ogni revisione del changelog contiene un puntatore a una singola revisione del manifest. Una revisione del manifest include un puntatore a una singola revisione di ogni filelog registrato quando il changeset è stato creato. Queste relazioni sono illustrate nella Figura 4.2, «Relazioni tra i metadati».

Figura 4.2. Relazioni tra i metadati

XXX add text

Come mostrato in figura, non c’è una relazione «uno a uno» tra le revisioni nel changelog, nel manifest, o nel filelog. Se un file registrato da Mercurial non è cambiato tra due changeset, la voce per quel file nelle due revisioni del manifest punterà alla stessa revisione nel suo filelog[3].

Memorizzazione sicura ed efficiente

Il supporto su cui si basano i changelog, i manifest e i filelog viene fornito da una singola struttura chiamata revlog (letteralmente, registro di revisione).

Memorizzazione efficiente

Il revlog permette di memorizzare le revisioni in maniera efficiente usando un meccanismo basato su differenze chiamate delta. Invece di registrare una copia completa di un file per ogni revisione, il revlog memorizza i cambiamenti necessari a trasformare una revisione più vecchia nella nuova revisione. Per molti tipi di file, queste delta sono tipicamente una frazione percentuale della dimensione di un’intera copia di un file.

Alcuni sistemi di controllo di revisione obsoleti possono lavorare solo con le delta di file di testo e sono costretti a memorizzare i file binari come copie complete o a codificarli in una rappresentazione testuale, entrambi approcci dispendiosi. Mercurial è in grado di gestire in maniera efficiente le delta di file con contenuti binari arbitrari, per cui non ha bisogno di trattare il testo in maniera speciale.

Operazioni sicure

Mercurial si limita ad aggiungere dati alla fine di un file di revlog invece di modificarne una sezione dopo averlo memorizzato. Questo approccio è più robusto ed efficiente rispetto a sistemi che hanno bisogno di modificare o riscrivere i dati.

In più, Mercurial tratta ogni scrittura come parte di una transazione che può coinvolgere un qualsiasi numero di file. Una transazione è atomica: o l’intera transazione ha successo e i suoi effetti sono visibili in lettura in un unico passo, oppure l’operazione viene completamente annullata. Questa garanzia di atomicità significa che se state eseguendo due copie di Mercurial, una che sta leggendo dati e l’altra che sta scrivendo, la copia che agisce in lettura non vedrà mai un risultato parzialmente scritto che potrebbe confonderla.

Il fatto che Mercurial operi solo aggiungendo dati alla fine dei file rende più facile fornire questa garanzia transazionale. Più è facile fare cose come queste, più dovreste avere fiducia nel fatto che vengano eseguite correttamente.

Reperimento veloce

Mercurial evita astutamente un’insidia comune a tutti i primi sistemi di controllo di revisione: il problema del reperimento inefficiente. La maggior parte dei sistemi di controllo di revisione memorizza i contenuti di una revisione come una serie incrementale di modifiche rispetto a una «fotografia». (Alcuni basano la fotografia sulla revisione più vecchia, altri su quella più recente.) Per ricostruire una revisione specifica, dovete leggere prima la fotografia e poi ognuna delle revisioni tra la fotografia e la revisione che volete. Più cronologia accumula un file, più revisioni dovete leggere, quindi più tempo viene impiegato per ricostruire una particolare revisione.

Figura 4.3. Fotografia di un revlog, con delta incrementali

XXX add text

Il modo innovativo in cui Mercurial risolve questo problema è semplice ma efficace. Una volta che la quantità totale di informazioni di delta memorizzate dall’ultima fotografia supera una soglia fissata, Mercurial memorizza una nuova fotografia (compressa, naturalmente) invece di un’altra delta. Questo approccio consente di ricostruire velocemente qualsiasi revisione di un file e funziona così bene che in seguito è stato copiato da molti altri sistemi di controllo di revisione.

La Figura 4.3, «Fotografia di un revlog, con delta incrementali» illustra l’idea. In una voce contenuta nel file indice di un revlog, Mercurial memorizza l’intervallo di voci che deve leggere dal file di dati per ricostruire una particolare revisione.

Digressione: l’influenza della compressione video

Se avete familiarità con la compressione video o avete mai esaminato un segnale televisivo trasmesso attraverso un cavo digitale o un servizio satellitare, potreste sapere che la maggior parte degli schemi per la compressione video memorizzano ogni frame del video come una delta rispetto al frame precedente.

Mercurial prende in prestito questa idea per fare in modo che sia possibile ricostruire una revisione da una fotografia e da un ridotto numero di delta.

Identificazione e integrità forte

Insieme alle informazioni di delta e di fotografia, una voce di revlog contiene un hash crittografico dei dati che rappresenta. Questo rende difficile contraffare i contenuti di una revisione e facilita la scoperta di corruzioni accidentali dei dati.

Gli hash forniscono più di un semplice controllo contro la corruzione dei dati, infatti vengono usati come identificatori per le revisioni. Gli hash di identificazione dei changeset che avete visto come utenti finali provengono dalle revisioni del changelog. Sebbene anche i filelog e il manifest facciano uso di hash, in questo caso Mercurial li impiega solo dietro le quinte.

Mercurial verifica che gli hash siano corretti nel momento in cui reperisce le revisioni dei file o estrae i cambiamenti da un altro repository. Se incontra un problema di integrità, lo segnalerà e bloccherà l’operazione che stava eseguendo.

In aggiunta all’effetto che ha sull’efficienza del reperimento, l’uso di fotografie periodiche da parte di Mercurial rende i repository più robusti nei confronti della corruzione parziale dei dati. Se un revlog viene parzialmente rovinato da un errore hardware o da un bug di sistema, spesso rimane possibile ricostruire alcune o la maggior parte delle revisioni a partire dalle sezioni illese del revlog che si trovano prima e dopo la sezione rovinata. Questo non sarebbe possibile con un modello di memorizzazione basato unicamente sulle delta.

Cronologia delle revisioni, ramificazioni e unioni

Ogni voce in un revlog di Mercurial conosce l’identità della propria revisione progenitrice diretta, di solito chiamata genitore. In effetti, una revisione contiene spazio non solo per un genitore, ma per due. Mercurial usa un hash speciale, chiamato «identificatore nullo», per rappresentare l’idea che «non c’è alcun genitore qui». Questo hash è semplicemente una stringa di zeri.

Nella Figura 4.4, «La struttura concettuale di un revlog», potete vedere un esempio della struttura concettuale di un revlog. I filelog, i manifest e i changelog hanno tutti questa identica struttura e differiscono solo per il tipo di dati memorizzati in ogni delta e fotografia.

La prima revisione in un revlog (nella parte inferiore dell’immagine) presenta un identificatore nullo in entrambi gli spazi riservati ai genitori. Per una revisione «normale», lo spazio del primo genitore contiene l’identificatore della revisione genitore e lo spazio del secondo contiene l’identificatore nullo, indicando che la revisione possiede un solo vero genitore. Due revisioni qualsiasi che possiedano lo stesso genitore si chiamano rami. Una revisione che rappresenta un’unione tra rami ha due identificatori di revisione normali negli spazi dedicati ai propri genitori.

Figura 4.4. La struttura concettuale di un revlog

XXX add text

La directory di lavoro

Nella directory di lavoro, Mercurial mantiene una fotografia dei file contenuti nel repository scattata su un changeset particolare.

La directory di lavoro «sa» quale changeset contiene. Quando aggiornate la directory di lavoro per contenere un particolare changeset, Mercurial cerca la revisione appropriata del manifest per trovare quali file aveva registrato nel momento in cui quel changeset è stato inserito e qual era la revisione corrente di ogni file in quel momento. Poi, ricrea una copia di tutti quei file con gli stessi contenuti che avevano quando il changeset è stato inserito.

Il dirstate (letteralmente, stato della directory) è una struttura speciale che contiene le informazioni possedute da Mercurial sulla directory di lavoro. Viene mantenuto sotto forma di un file chiamato .hg/dirstate all’interno di un repository. Il dirstate contiene i dettagli del changeset a cui la directory di lavoro è aggiornata e di tutti i file che Mercurial sta monitorando nella directory di lavoro. Il dirstate permette a Mercurial anche di notare velocemente i file modificati, registrando le loro date e dimensioni al momento dell’aggiornamento.

Il dirstate riserva spazio per due genitori, esattamente come una revisione di un revlog, in modo da poter rappresentare sia una normale revisione (con un genitore) che un’unione di due revisioni precedenti. Quando usate il comando hg update, il changeset a cui aggiornate la directory di lavoro viene memorizzato nello spazio del «primo genitore» e l’identificatore nullo nello spazio del secondo. Quando incorporate un altro changeset tramite hg merge, il primo genitore rimane lo stesso e il secondo genitore diventa il changeset che state incorporando. Il comando hg parents vi dice quali sono i genitori del dirstate.

Cosa succede quando eseguite un commit

Il dirstate mantiene le informazioni sui genitori per altri scopi in aggiunta alla mera contabilità. Mercurial usa i genitori del dirstate come i genitori di un nuovo changeset quando effettuate un commit.

Figura 4.5. La directory di lavoro può avere due genitori

XXX add text

La Figura 4.5, «La directory di lavoro può avere due genitori» mostra il normale stato della directory di lavoro, in cui la directory ha un singolo changeset come genitore. Quel changeset è la punta, il changeset più recente senza figli nel repository.

Figura 4.6. La directory di lavoro acquisisce nuovi genitori dopo un commit

XXX add text

È utile pensare alla directory di lavoro come al «changeset che state per inserire». Le azioni compiute su qualsiasi file che abbiate detto a Mercurial di aver aggiunto, rimosso, rinominato, o copiato verranno riflesse in quel changeset, così come le modifiche a qualsiasi file che Mercurial aveva già registrato. Il nuovo changeset acquisirà come propri genitori quelli della directory di lavoro.

Dopo un commit, Mercurial aggiornerà i genitori della directory di lavoro in modo che il primo genitore sia l’identificatore del nuovo changeset e il secondo sia l’identificatore nullo, come mostrato nella Figura 4.6, «La directory di lavoro acquisisce nuovi genitori dopo un commit». Mercurial non tocca alcun file nella directory di lavoro quando eseguite un commit, ma si limita a modificare il dirstate per annotare i nuovi genitori della directory.

Creare una nuova testa

È perfettamente normale aggiornare la directory di lavoro a un changeset diverso dalla punta corrente. Per esempio, potreste voler sapere come il vostro progetto appariva lo scorso martedì, oppure potreste dover scorrere i changeset per trovare quello che ha introdotto un bug. In questi casi, la cosa naturale da fare è aggiornare la directory di lavoro al changeset che vi interessa e poi esaminare i file direttamente nella directory di lavoro per vedere quali erano i loro contenuti quando avete inserito quel changeset. Gli effetti di questa azione si possono vedere nella Figura 4.7, «La directory di lavoro, aggiornata a un vecchio changeset».

Figura 4.7. La directory di lavoro, aggiornata a un vecchio changeset

XXX add text

Avendo aggiornato la directory di lavoro a un vecchio changeset, cosa succede se apportate alcuni cambiamenti e poi li inserite? Mercurial si comporta nello stesso modo delineato in precedenza. I genitori della directory di lavoro diventano i genitori del nuovo changeset. Questo nuovo changeset non ha figli, quindi diventa la nuova punta. E il repository ora contiene due changeset senza figli che vengono chiamati teste. Potete vedere la struttura creata da questa operazione nella Figura 4.8, «La situazione dopo un commit effettuato su un aggiornamento a un vecchio changeset».

Figura 4.8. La situazione dopo un commit effettuato su un aggiornamento a un vecchio changeset

XXX add text

[Nota]Nota

Se avete appena cominciato a lavorare con Mercurial, dovreste tenere a mente un «errore» comune, che è quello di usare il comando hg pull senza alcuna opzione. Per default, il comando hg pull non aggiorna la directory di lavoro, ma propagherà i nuovi cambiamenti nel vostro repository lasciandola sincronizzata allo stesso changeset in cui si trovava prima della propagazione. Se ora effettuate alcuni cambiamenti e poi li inserite, creerete una nuova testa, perché la vostra directory di lavoro non è stata sincronizzata alla revisione di punta corrente. Per combinare le operazioni di estrazione e aggiornamento, eseguite hg pull -u.

Ho messo la parola «errore» tra virgolette perché tutto quello che dovete fare per rettificare la situazione in cui avete creato una nuova testa per sbaglio è eseguire il comando hg merge seguito da hg commit. In altre parole, questo errore non ha quasi mai conseguenze negative, ma è solo qualcosa che può sorprendere i nuovi utenti. Più avanti, discuterò altri modi per evitare questo comportamento e le ragioni per cui Mercurial si comporta in questo modo inizialmente sorprendente.

Unire i cambiamenti

Quando eseguite il comando hg merge, Mercurial lascia invariato il primo genitore della directory di lavoro e imposta il secondo genitore al cambiamento che state incorporando, come mostrato nella Figura 4.9, «Unire due teste».

Figura 4.9. Unire due teste

XXX add text

Mercurial deve anche modificare la directory di lavoro per unire i file gestiti dai due changeset. Semplificandolo un po’, il processo di unione funziona nel modo seguente, per ogni file contenuto nei manifest di entrambi i changeset.

  • Se nessuno dei changeset ha modificato il file, non fare nulla con quel file.

  • Se un changeset ha modificato il file e l’altro non lo ha modificato, crea la copia modificata del file nella directory di lavoro.

  • Se un changeset ha rimosso un file e l’altro no (o se anche l’altro lo ha cancellato), cancella il file dalla directory di lavoro.

  • Se un changeset ha cancellato un file ma l’altro lo ha modificato, chiedi all’utente cosa vuole fare: tenere il file modificato oppure rimuoverlo?

  • Se entrambi i changeset hanno modificato un file, richiama un programma di unione esterno per scegliere i contenuti del file da unire. Questa operazione potrebbe richiedere un’interazione con l’utente.

  • Se un changeset ha modificato un file e l’altro lo ha rinominato o copiato, assicurati che i cambiamenti seguano il nuovo nome del file.

Ci sono molti altri dettagli—le unioni sono piene di casi particolari—ma queste sono le scelte più comuni coinvolte nel processo di unione. Come potete vedere, la maggior parte dei casi è completamente automatizzata e in effetti la maggior parte delle unioni termina automaticamente senza richiedere il vostro intervento per risolvere alcun conflitto.

Se considerate quello che succede quando effettuate un commit dopo un’unione, ancora una volta la directory di lavoro è «il changeset che state per inserire». Dopo che il comando hg merge ha terminato, la directory di lavoro possiede due genitori, che poi diventeranno i genitori del nuovo changeset.

Mercurial vi permette di effettuare molteplici unioni, ma dovete inserire i risultati di ogni singola unione man mano che procedete, perché Mercurial tiene traccia solamente di due genitori sia per le revisioni che per la directory di lavoro. Anche se unire molteplici changeset alla volta sarebbe tecnicamente possibile, Mercurial evita di farlo per semplicità. Con unioni a più vie, il rischio di disorientare l’utente, di incappare in conflitti sgradevoli da risolvere e di fare una terribile confusione durante il processo di unione diventerebbe intollerabile.

Le unioni e i cambiamenti di nome

Un numero sorprendente di sistemi di controllo di revisione dedica poca o addirittura nessuna attenzione ai cambiamenti del nome di un file. Per esempio, era pratica comune scartare silenziosamente le modifiche a un file contenute in una delle due parti di un’unione se quel file fosse stato rinominato nell’altra parte.

Mercurial registra alcuni metadati quando gli dite di effettuare una cambiamento di nome o una copia e li usa durante le unioni per comportarsi in maniera appropriata. Per esempio, se io cambio il nome di un file che voi modificate senza rinominare, quando uniamo i nostri cambiamenti il file verrà rinominato e gli verranno applicate le vostre modifiche.

Altre caratteristiche di progettazione interessanti

Nelle sezioni precedenti, ho provato a evidenziare alcuni degli aspetti più importanti nella progettazione di Mercurial, per illustrare come sia stata dedicata la dovuta attenzione a prestazioni e affidabilità. Tuttavia, l’attenzione ai dettagli non finisce qui. Ci sono un certo numero di altri aspetti nella costruzione di Mercurial che trovo personalmente interessanti. Ne descriverò alcuni in questa sezione, separatamente dagli elementi «di primo piano» analizzati finora, in modo che se siete interessati potete farvi un’idea più precisa di quanti ragionamenti ci sono dietro a un sistema ben progettato.

Compressione intelligente

Quando è appropriato, Mercurial memorizzerà sia la fotografia che le delta in forma compressa, cercando sempre di comprimere una fotografia o una delta, ma memorizzando la versione compressa solo se è più piccola della versione originale.

Questo significa che Mercurial fa «la cosa giusta» quando memorizza un file il cui formato sia già compresso, come un archivio zip o un’immagine JPEG. Quando questi tipi di file vengono compressi una seconda volta, il file risultante è tipicamente più grande di quello originale, così Mercurial memorizzerà la versione iniziale del file zip o JPEG.

Di solito, le delta tra le revisioni di un file compresso sono più grandi delle fotografie del file, ma anche in questi casi Mercurial fa «la cosa giusta» ancora una volta. Scopre che quella delta supera la soglia oltre la quale Mercurial dovrebbe registrare una fotografia completa del file e quindi memorizza la fotografia, risparmiando ancora spazio nei confronti di un approccio ingenuo basato solo sulle delta.

Ricompressione di rete

Nel memorizzare le revisioni su disco, Mercurial usa l’algoritmo di compressione «deflate» (lo stesso usato dal popolare formato zip), che concilia una buona velocità con un rispettabile rapporto di compressione. Tuttavia, quando trasmette i dati di una revisione attraverso una connessione di rete, Mercurial decomprime i dati di revisione compressi.

Se la connessione avviene via HTTP, Mercurial ricomprime l’intero flusso di dati usando un algoritmo che ha un rapporto di compressione migliore (l’algoritmo Burrows-Wheeler del rinomato pacchetto di compressione bzip2). Questa combinazione di algoritmo e compressione dell’intero flusso (invece di una revisione alla volta) riduce notevolmente il numero di byte da trasferire, producendo prestazioni di trasmissione migliori sulla maggior parte delle reti.

Se la connessione avviene via ssh, Mercurial non ricomprime il flusso, perché ssh è già in grado di farlo da sé. Potete dire a Mercurial di usare sempre la funzione di compressione di ssh modificando il file .hgrc che si trova nella vostra directory personale nel modo seguente.

[ui]
ssh = ssh -C

Ordinamento e atomicità delle operazioni di lettura e scrittura

Quando si cerca di garantire che una lettura non veda scritture parziali, non è sufficiente limitarsi ad aggiungere in coda ai file le nuove informazioni. Se ricordate la Figura 4.2, «Relazioni tra i metadati», le revisioni in un changelog puntano alle revisioni nel manifest e le revisioni nel manifest puntano alle revisioni nei filelog. Questa gerarchia è intenzionale.

Un’operazione di scrittura avvia una transazione modificando i dati nei filelog e nel manifest, senza modificare alcun dato contenuto nel changelog prima che di aver terminato con quelli. Un’operazione di lettura comincia leggendo i dati nel changelog, poi i dati nel manifest seguiti dai dati nei filelog.

Dato che la scrittura ha sempre terminato di modificare i dati nei filelog e nel manifest prima di modificare il changelog, una lettura non vedrà mai il changelog puntare verso una revisione parzialmente modificata del manifest e non vedrà mai il manifest puntare verso una revisione parzialmente modificata di un filelog.

Accesso concorrente

Le garanzie sull’ordinamento e sull’atomicità delle operazioni di lettura significano che Mercurial non avrà mai bisogno di bloccare un repository da cui sta leggendo i dati, anche se il repository viene modificato mentre la lettura è in corso. Questo ha un importante effetto sulla scalabilità: potete avere un numero arbitrario di processi Mercurial che leggono contemporaneamente in sicurezza i dati da un repository, senza preoccuparvi che qualcun altro lo stia modificando oppure no.

La mancanza di un blocco durante la lettura significa che, se state condividendo un repository su un sistema multi-utente, non avete bisogno di concedere ad altri utenti locali i permessi di scrittura al vostro repository per consentire loro di clonarlo o estrarne i cambiamenti, ma saranno sufficienti i permessi di lettura. (Questa non è una caratteristica comune tra i sistemi di controllo di revisione, quindi non datela per scontata! La maggior parte dei sistemi richiede che i lettori siano in grado di bloccare un repository per accederlo in sicurezza, cosa che naturalmente provoca ogni tipo di sgradevoli e fastidiosi problemi di sicurezza e amministrazione.)

Mercurial usa i blocchi per assicurarsi che un solo processo alla volta possa effettuare modifiche a un repository (il meccanismo di bloccaggio è sicuro persino su file system che sono notoriamente avversi al bloccaggio, come NFS). Se un repository è bloccato, un’operazione di scrittura aspetterà per qualche tempo prima di ricontrollare se il repository si è sbloccato, ma se il repository rimane bloccato troppo a lungo, dopo un po’ il processo che sta tentando di scrivere andrà in timeout. Questo significa, per esempio, che i vostri script automatici non rimarranno bloccati per sempre accumulandosi l’uno sull’altro se un sistema dovesse inavvertitamente cadere. (Sì, il valore del timeout è configurabile, da zero a infinito.)

Accesso sicuro al dirstate

Come con i dati di revisione, Mercurial non blocca il file di dirstate per leggerlo, ma acquisisce un blocco solo per modificarlo. Per evitare la possibilità di leggere una copia parzialmente modificata di un file di dirstate, Mercurial scrive su un file con un nome unico nella stessa directory del file di dirstate, poi cambia il nome del file temporaneo a dirstate in maniera atomica. In questo modo si garantisce che il file chiamato dirstate sia sempre completo e mai parzialmente modificato.

Evitare le operazioni di seek

Un aspetto critico delle prestazioni di Mercurial è quello di evitare le operazioni di seek della testina del disco, dato che ognuna di queste operazioni è molto più dispendiosa persino di un’operazione di lettura relativamente grande.

Questa è la ragione per cui, per esempio, il dirstate è memorizzato in un singolo file. Se ci fosse un file di dirstate per ogni directory registrata da Mercurial, il disco effettuerebbe un’operazione di seek per ciascuna directory. Invece, Mercurial legge l’intero file di dirstate in un singolo passo.

Mercurial adotta anche una strategia «copy-on-write» per clonare un repository su disco locale. Invece di copiare ogni file di revlog dal vecchio repository al nuovo, utilizza «collegamenti fisici» per indicare che «due nomi puntano allo stesso file». Quando Mercurial sta per modificare uno dei file di un revlog, controlla per vedere se il numero di nomi che puntano al file è più grande di uno. Se è così, questo significa che più di un repository sta usando il file, quindi Mercurial ne crea una nuova copia riservata a questo repository.

Alcuni sviluppatori di sistemi per il controllo di revisione hanno fatto notare che la creazione di una copia privata completa di un file non sfrutta lo spazio su disco in maniera molto efficiente. Sebbene questo sia vero, lo spazio su disco è piuttosto economico, e questo metodo consente di avere le prestazioni migliori rinviando la maggior parte della contabilità al sistema operativo. Molto probabilmente, una strategia alternativa ridurrebbe le prestazioni e aumenterebbe la complessità del software, ma velocità e semplicità sono aspetti chiave per la «facilità» nell’uso quotidiano.

Altre informazioni contenute nel dirstate

Dato che Mercurial non vi obbliga a dirgli quando state modificando un file, usa il dirstate per memorizzare alcune informazioni aggiuntive in modo da poter determinare in maniera efficiente se avete modificato un file. Per ogni file nella directory di lavoro, Mercurial memorizza la data in cui ha registrato una modifica al file per l’ultima volta e la dimensione che il file aveva in quel momento.

Quando utilizzate esplicitamente hg add, hg remove, hg rename, o hg copy su un file, Mercurial aggiorna il dirstate in modo che sappia cosa fare con quel file quando effettuate un commit.

Il dirstate aiuta Mercurial a controllare in maniera efficiente lo stato dei file in un repository.

  • Quando Mercurial controlla lo stato di un file nella directory di lavoro, per prima cosa confronta la data dell’ultima modifica del file con la data memorizzata nel dirstate che indica l’ultima volta in cui Mercurial ha registrato una modifica per quel file. Se le due date sono le stesse, il file non deve essere stato modificato, quindi Mercurial non ha bisogno di fare ulteriori controlli.

  • Se la dimensione del file è cambiata, il file deve essere stato modificato. Solo nel caso in cui la data di modifica sia cambiata, ma non la dimensione, Mercurial ha effettivamente bisogno di leggere i contenuti del file per vedere se è stato modificato.

Memorizzare le dimensioni e la data di ultima modifica riduce drammaticamente il numero di operazioni di lettura che Mercurial deve effettuare quando invochiamo comandi come hg status. Da questo stratagemma deriva un notevole miglioramento delle prestazioni.



[3] È possibile (anche se inusuale) che il manifest rimanga lo stesso tra due changeset, nel qual caso le voci del changelog per quei changeset punteranno alla stessa revisione del manifest.

Volete rimanere aggiornati? Abbonatevi al feed delle modifiche per il libro italiano.

Copyright 2006, 2007, 2008, 2009 Bryan O’Sullivan. Icone realizzate da Paul Davey alias Mattahan.

Copyright 2009 Giulio Piancastelli per la traduzione italiana.