Digitalizzazione dei dati scritti a mano: un’opportunità e una sfida
Da un progetto durato più di vent’anni sulle coccinelle emerge la necessità di digitalizzare dati scritti a mano. Questo passaggio, se ben gestito, può preservare e valorizzare informazioni cruciali.
L’importanza dei dati originali
Christie Bahlai, ecologa computazionale, eredita scatole di schede tecniche scritte a mano da un progetto scientifico. La sfida principale è garantire la completa digitalizzazione di queste preziose informazioni, senza perdite.
Le sfide sul campo e in laboratorio
Spesso, raccogliere dati direttamente su fogli digitali non è pratico. Esistono situazioni in cui è necessario annotare manualmente su quaderni impermeabili o in condizioni difficili, come durante studi nella foresta pluviale o nei campi agricoli.
Consigli per una corretta digitalizzazione
Pianificare l’integrità dei dati fin dall’inizio
Creare protocolli chiari e flussi di lavoro standardizzati per evitare errori durante la digitalizzazione. Coinvolgere più persone nel processo, garantendo un controllo di qualità rigoroso e un’analisi approfondita dei dati.
Collaborazione e metadati
La collaborazione tra colleghi può facilitare il trasferimento dei dati, con un controllo incrociato per assicurare la correttezza delle informazioni. Includere metadati chiari e dettagliati su acronimi e unità di misura per una comprensione condivisa.
Formare il personale sul campo
Joel Correia, geografo alla Colorado State University, sottolinea l’importanza di formare il personale sul campo. Insegna ai membri delle comunità indigene dell’Amazzonia metodi di ricerca per garantire una chiarezza condivisa nei concetti di base.
Effettuare una digitalizzazione immediata
Correia consiglia di digitalizzare immediatamente i taccuini una volta tornati dal campo, per proteggerli da eventuali danni fisici. Scansionare o fotocopiare i documenti in PDF evita la perdita di dati importanti.
Validazione incrociata dei dati
Una metodologia efficace per ridurre gli errori è la validazione incrociata dei dati. Coinvolgere più persone nell’inserimento dei dati consente di individuare e correggere le eventuali incoerenze tra le versioni, garantendo maggiore accuratezza.
Focus sull’elemento umano
Linden Ashcroft, climatologo dell’Università di Melbourne, sottolinea l’importanza di coinvolgere l’elemento umano nella digitalizzazione dei dati storici. Raccomanda la doppia o tripla chiave per garantire la corretta trasposizione dei documenti manuali in formato digitale.
Gestione dei valori anomali
La gestione dei valori anomali nei dati è cruciale. È consigliabile programmare il software per rilevare e correggere valori fuorvianti o illogici, evitando distorsioni nei risultati analitici a causa di errori di input.
Sfruttare il software OCR e altro
Il software OCR può essere prezioso nella conversione di documenti scritti in formato cartaceo in testo digitale. Questo strumento, insieme ad altri software specializzati, può facilitare la digitalizzazione e la gestione dei dati in modo efficiente.
Il Futuro dell’OCR nella Digitalizzazione dei Documenti Storici
Esistono numerosi strumenti di OCR che possono acquisire con successo dati contenenti testo e numeri scritti a mano in modo chiaro e compatibile con le colonne designate.
Limiti attuali
Tuttavia, l’efficacia dei software di OCR sul testo storico è limitata, secondo Stuart Middleton dell’Università di Southampton. Problemi come la somiglianza tra alcune lettere (ad esempio, s e f) e disturbi visivi possono compromettere le prestazioni.
Approccio tecnico
Ricercatori esperti in informatica spesso ricorrono a diversi modelli OCR, modellati su Hugging Face, necessitando di immagini di addestramento simili ai dati per prestazioni ottimali. Middleton e il suo team sviluppano soluzioni OCR avanzate per dati meteorologici storici.
Digitalizzazione di Dati Vari
Altri professionisti, come Eliza Grames della Binghamton University, utilizzano strumenti come metaDigitise e WebPlotDigitizer per mappare dati storici su insetti. Inoltre, Grames sfrutta Inkscape per la digitalizzazione dei dati sulla distribuzione delle specie per la mappatura geografica.
Supervisione Necessaria
Nonostante i progressi, l’OCR richiede ancora una supervisione accurata per correggere errori. Ashley Ashcroft consiglia il coinvolgimento di volontari globali per garantire la qualità dei dati storici, che considera un’opportunità coinvolgente per il pubblico.
Futuro dell’OCR
Anche se al momento non sempre conveniente, con lo sviluppo tecnologico futuro, l’OCR potrebbe diventare essenziale per progetti di digitalizzazione. Acevedo suggerisce che entro il 2025 potrebbe essere una prassi diffusa nell’ambito accademico.