Laboratorio di Linguistica
'Giovanni Nencioni'
Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS)

 

 

 

 

 

HOME

 

DESCRIZIONE

 

CONSULTA

 

 

 

 

 

 

 

 

 

 

 

Il corpus di riferimento è costituito da testi tratti da quotidiani del periodo 1992 - 1994 ('La Repubblica', 'La Stampa', 'Il Corriere della Sera'), periodici e libri, considerando anche i libri letti per motivi scolastici o professionali. Consta di 3.798.275 ricorrenze lessicali, così ripartite:

QUOTIDIANI 1.836.119
PERIODICI 1.306.653
LIBRI 655.503

Nel campionare i testi, gli autori hanno ponderato i dati dell'ISTAT relativi alle letture preferite dagli italiani, per ottenere un corpus che fosse il più possibile rappresentativo di ciò che gli italiani effettivamente leggono.

Per una descrizione più dettagliata del corpus, si veda:
Laudanna, A., Thornton, A.M., Brown, G., Burani, C. e Marconi, L. (1995).
Un corpus dell'italiano scritto contemporaneo dalla parte del ricevente. In S. Bolasco, L. Lebart e A. Salem (a cura di), III Giornate internazionali di Analisi Statistica dei Dati Testuali. Volume I, pp.103-109. Roma: Cisu

 

Il lessico di frequenza tratto dal corpus include due sottoparti: formario e lemmario.
Il formario contiene la frequenza di ciascuna forma presente nel corpus (ad es. porti), senza distinguere fra i vari lemmi a cui la forma si può ricondurre.
Il lemmario contiene invece le frequenze delle forme lemmatizzate, cioè ricondotte al lemma di provenienza (ad es. porti come forma plurale del sostantivo porto, oppure seconda persona singolare dell'indicativo del verbo portare). Il lemmario indica inoltre la frequenza delle parole 'sintagmatiche' (anche dette 'polirematiche'), ossia le locuzioni costituite da due o più parole, spesso con significato autonomo rispetto agli elementi che le costituiscono (ad es. Gazzetta Ufficiale, poco di buono, a causa di, spesse volte). Per la lemmatizzazione dei testi sono stati definiti appositi criteri (vedi anche StatisticaColfis).

I punti di forza di CoLFIS, rispetto ai lessici di frequenza precedentemente disponibili per l'italiano sono dunque i seguenti:

  1. il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale;
  2. la sua ampiezza. Se è vero che le tecnologie informatiche hanno reso ormai relativamente agevole l'accesso a larghi corpora testuali, è altrettanto vero che non esistono molti altri esempi, di corpora di queste dimensioni interamente lemmatizzati.