Don1

Gestire, elaborare, un pdf.

Recommended Posts

Ciao,


 


vi scrivo per chiedervi se conoscete un programma che possa aiutarmi su un lavoro che sto realizzando. 


Devo lavorare su un dizionario del 1900 (di mole considerevole, oltre 600 pagine totali) che è stata digitalizzata e pertanto resa gratuitamente scaricabile nei formati pub, text, pdf. Nello specifico devo sfogliare l'opera e reperire tutti i vocaboli francesi e inglesi ivi presenti. 


Usando windows mi veniva più facile usare il formato pdf che tuttavia a causa della sua mole (2 file da 109 mb e 168mb) ho dovuto ridurre in file più piccoli attraverso nitro pdf pro. Attraverso il formato pdf riuscivo in effetti a leggere correttamente l'opera e a visualizzare nel modo più realistico possibile i vari caratteri e le varie immagini. Inoltre attraverso la funzione cerca riuscivo a fare un'ulteriore prova per diminuire al minimo il rischio di non aver visto un lemma straniero. L'unica difficoltà è di dover sfogliare pagina per pagina l'intera opera. 


Ora a questo punto la mia domanda è: esiste un modo o un programma per personalizzare una ricerca affinché ad esempio mi trovi tutte le parole non facenti parte della lingua italiana? Esiste un programma che lavorando su un pdf o pub o text permetta una ricerca MINUZIOSA ed estremamente ACCURATA di una data parola o parti di parola?


Su windows tra le tante prove ho anche convertito il pdf in world ma la conversione è stata pessima ... dato che le pagine che compongono il pdf sono di fatto immagini jpeg e per cui i caratteri non sempre sono chiari.


All'opposto usando il file text su word sono riuscito ad avere una conversione un po più fedele all'originale. A questo punto   ho selezionato la funzione cerca ,,,, ottenendo tuttavia risultati insoddisfacenti.


Spero di essere riuscito a spigarvi il mio problema ....


Resto in attesa ... e GRAZIE:..  :)


  


Share this post


Link to post
Share on other sites

Devo solo effettuare una ricerca .... 


Faccio presente che tuttavia ... la funzione cerca implementata di default nel programma per aprire il pdf non è sufficiente. Inoltre l'unico parametro di ricerca imponibile è quello di cercare una data parola e non gruppi. 


Faccio un esempio... se volessi cercare la parola bureau tutto ok, ma se volessi aggiungere ulteriori parametri? Ad esempio non è possibile chiedere al programma preinstallato che mi cerchi tutte le parole che iniziano per: bur...; cén ...; etc 


Oppure chiedere al programma che mi cerchi tutte le parole non facenti parte della lingua italiana... oppure ... tutte le parole scritte in corsivo... 


Credo che un programma così non esista ... ma magari sapete consigliarmi una procedura? 


Grazie


Share this post


Link to post
Share on other sites

Devi cercare tutti i prestiti linguistici presenti in quel particolare dizionario?


Se si tratta di lemmi, non dovrai preoccuparti delle forme flesse e questo è già un bel vantaggio. Se in quel dizionario le parole straniere sono segnalate in qualche modo, per esempio con una forma abbreviata tra parentesi, potresti cercare quelle determinate parole. Diversamente la vedo un po' dura.


Share this post


Link to post
Share on other sites

Che versione di OS X hai? Quindi che versione di Pages hai?


 


Io proverei a svolgere la ricerca in un documento diverso dall'originale ... sempre che abbia capito cosa ti serve ... cioè:


 


  • aprirei il PDF, selezionerei il contenuto e lo copierei (tutto o a porzioni sarà da decidere*);
  • lo incollerei in Pages (il risultato non sarebbe particolarmente importante tranne che per evidenti incomprensioni da esaminare singolarmente tramite presentazione di pagina PDF e pagina Pages affiancate e da scrollare in parallelo);
  • selezionerei le Preferenze di Sistema sia in Lingue e Zona che in Tastiera in modo da avere esclusivamente l'Italiano come lingua di sistema;
  • infine in Pages attiverei il controllo ortografico per avere sottolineate in rosso tutte le parole sbagliate (non italiane o non decriptate dall'importazione) e questa sarebbe la ricerca automatizzata;
  • infine una volta individuate inserendole nella finestra "Ortografia e Grammatica" si potrebbero cambiare in tutto il documento (vedi:*) con una neutra in modo da non doverla esaminare ulteriormente**.

 


Al termine dell'esame questo documento non servirà più a nulla mentre ovviamente o si sarà creato un altro documento in cui copiare ogni lemma da individuare (con riferimento a pagina ecc. vedrai tu) oppure si interverrà in parallelo con correzioni sul documento originale (vedi:**). 


 


Non è certo un sistema "automatico", ma al momento è quel che mi viene con gli strumenti che conosco. Vedi se qualcosa ti sconfinferla ...


 


42 6.gif


Share this post


Link to post
Share on other sites

Che versione di OS X hai? Quindi che versione di Pages hai?

 

Io proverei a svolgere la ricerca in un documento diverso dall'originale ... sempre che abbia capito cosa ti serve ... cioè:

 

  • aprirei il PDF, selezionerei il contenuto e lo copierei (tutto o a porzioni sarà da decidere*);

lo incollerei in Pages (il risultato non sarebbe particolarmente importante tranne che per evidenti incomprensioni da esaminare singolarmente tramite presentazione di pagina PDF e pagina Pages affiancate e da scrollare in parallelo);

selezionerei le Preferenze di Sistema sia in Lingue e Zona che in Tastiera in modo da avere esclusivamente l'Italiano come lingua di sistema;

infine in Pages attiverei il controllo ortografico per avere sottolineate in rosso tutte le parole sbagliate (non italiane o non decriptate dall'importazione) e questa sarebbe la ricerca automatizzata;

infine una volta individuate inserendole nella finestra "Ortografia e Grammatica" si potrebbero cambiare in tutto il documento (vedi:*) con una neutra in modo da non doverla esaminare ulteriormente**.

 

Al termine dell'esame questo documento non servirà più a nulla mentre ovviamente o si sarà creato un altro documento in cui copiare ogni lemma da individuare (con riferimento a pagina ecc. vedrai tu) oppure si interverrà in parallelo con correzioni sul documento originale (vedi:**). 

 

Non è certo un sistema "automatico", ma al momento è quel che mi viene con gli strumenti che conosco. Vedi se qualcosa ti sconfinferla ...

 

42 6.gif

 

 

 

Si mi sconfifera alquanto ... ora vedo un pochino!!!

Vi faccio sapere!!! 

Share this post


Link to post
Share on other sites

Devo solo effettuare una ricerca .... 

Faccio presente che tuttavia ... la funzione cerca implementata di default nel programma per aprire il pdf non è sufficiente. Inoltre l'unico parametro di ricerca imponibile è quello di cercare una data parola e non gruppi. 

Faccio un esempio... se volessi cercare la parola bureau tutto ok, ma se volessi aggiungere ulteriori parametri? Ad esempio non è possibile chiedere al programma preinstallato che mi cerchi tutte le parole che iniziano per: bur...; cén ...; etc 

Oppure chiedere al programma che mi cerchi tutte le parole non facenti parte della lingua italiana... oppure ... tutte le parole scritte in corsivo... 

Credo che un programma così non esista ... ma magari sapete consigliarmi una procedura? 

Grazie

 

Quello che devi fare è una cosa piuttosto complicata, ma dovresti fornire più informazioni. Ad esempio, cosa fai dopo aver trovato la parola?

 

Il modo migliore per fare queste cose è usare il Terminale. Con il comando grep puoi cercare le parole che iniziano in un dato modo, o che finiscono con certi caratteri. Puoi anche cercare in mezzo ad una parola.

 

Per cercare le parole NON in italiano, dovresti confrontare il testo con le parole contenute in un dizionario italiano, rimuovere tutte le occorrenze finché rimani con una lista di parole che non ha trovato, che sono quindi in altre lingue. Ovviamente dovresti tener conto delle forme flesse, dei plurali, delle coniugazioni dei verbi, delle irregolarità, quindi usare un dizionario che elenchi tuti questi elementi in modo distinto.

 

Altrettanto ovviamente non è una cosa fa fare a mano ma da automatizzare scrivendo un programma ad hoc, in python, perl o magari anche solo awk.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now