Scuola Normale Superiore

 

 

 

 

 

 

Home

Banche di Dati

 

 

   
Contatti

torna a Colfis

Criteri di lemmatizzazione

La lemmatizzazione, ovvero l’operazione di ricondurre ogni parola di un testo alla forma base (o entrata di dizionario) è un’operazione lunga e complessa, sia perché attualmente ancora non si dispone di lemmatizzatori automatici totalmente efficienti, sia perchè i criteri di lemmatizzazione devono fare i conti con la complessità dei fenomeni linguistici.
I criteri che vengono scelti sono lo specchio della grammatica a cui si fa riferimento. Le norme da noi scelte riflettono le convinzioni (o i ragionevoli compromessi) a cui è giunto, anche dopo approfondite discussioni, il gruppo di persone che ha lavorato al progetto del corpus. Nel dichiararle esplicitamente pensiamo di poter mettere chiunque in condizione di usufruire del nostro lavoro.
II corpus è stato lemmatizzato automaticamente, in prima battuta, con un lemmatizzatore gentilmente messo a disposizione gratuitamente dalla IBM Italia, attraverso la persona dell'Ing. Federico Mancini, poiché all’ epoca non si disponeva di un analizzatore di testi. Si tratta dello stesso lemmatizzatore che è stato utilizzato per la lemmatizzazione del corpus di parlato LIP (De Mauro, Mancini, Vedovelli, Voghera, Etas 1994), a cui spesso si farà riferimento. Il lemmatizzatore (descritto da Federico Mancini nel capitolo 4 del LIP) ha operato seguendo le norme di lemmatizzazione esposte da Miriam Voghera nel capitolo 5.2 (pp. 89-96) del LIP.
Nel nostro gruppo di ricerca, non sempre ci siamo trovati concordi sulle scelte di lemmatizzazione del LIP, ma non abbiamo potuto modificare le opzioni, perché l'IBM ci ha fornito solo gli eseguibili e non la sorgente dei programmi.
E' stato però possibile apportare alcuni cambiamenti con procedure che hanno agito automaticamente o manualmente sull'output del lemmatizzatore. I principali cambiamenti operati sono stati tre:

1) Unificare in un' unica categoria, chiamata Nomi Propri, tutte le forme che il lemmatizzatore classifica con i codici D, E, F, L. Questa scelta è stata operata per considerazioni teoriche e pratiche; in particolare, in queste categorie il lemmatizzatore dava luogo a frequenti errori di classificazione, per esempio categorizzando i nomi propri di persona come cognomi e viceversa; il raggruppamento di tutti i nomi propri sotto un unico codice ha permesso di ridurre gli interventi di correzione manuale necessari.

2) Sostituire i codici A e O (abbreviazioni e esotismi) con il codice S (sostantivi). Essere un'abbreviazione o un esotismo è una proprietà di natura diversa da quella di appartenere a una determinata categoria grammaticale; inoltre, le parole classificate come abbreviazioni ed esotismi sono quasi tutte funzionalmente dei sostantivi. Anche questa operazione ha permesso di ridurre la quantità di interventi di correzione manuale.

3) Trattare le parole sintagmatiche al cui interno compaiono altri elementi.

A ciascuna parola (o ricorrenza) è stato associato un codice che la assegna alla classe grammaticale di appartenenza:

Gli errori di stampa sono stati corretti.

 

lab.linguistica@sns.it
Link

Scuola Normale Superiore 
Biblioteca
Università di Pisa


Scuola Normale Superiore
Piazza dei Cavalieri
56100 PISA