Laboratorio di Linguistica
'Giovanni Nencioni'
Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS)

 

 

 

HOME

 

DESCRIZIONE

 

DOWNLOAD

 

 

 

 

 

 

 

 

 

 

 

I files del LEMMARIO contengono le forme (ricondotte al lemma originario) e i relativi LEMMI (i lemmi sono scritti col carattere maiuscolo) estratti dal corpus di italiano scritto. Ciascuna forma e ciascun LEMMA sono corredati da:

categoria grammaticale
frequenza assoluta totale (calcolata sull'intero corpus)
frequenza assoluta parziale (calcolata sui sottosettori che costituiscono il corpus)

frequenza relativa totale (calcolata considerando la frequenza assoluta totale rapportata all'indice di dispersione, e altri parametri statistici)
frequenza relativa parziale (frequenza nei sottosettori del corpus, corretta considerando la frequenza assoluta parziale nel sottosettore, rapportata all'indice di dispersione e altri parametri statistici)
dispersione totale (dispersione delle frequenze nei sottosettori)
dispersione parziale (dispersione delle frequenze nei testi del sottosettore)
rango d'uso (posizione della parola nell'ordine di frequenza relativa totale)
numero di caratteri di cui la stringa è costituita.

Le forme che compaiono nel LEMMARIO sono lemmatizzate; non sono quindi presenti forme ambigue. Di conseguenza, data una forma come 'porta', il lemmario distinguerà la frequenza totale attribuibile a 'porta' voce del verbo portare dalla frequenza di 'porta' nome femminile singolare. Oppure, per una forma come 'ancora', distinguerà la frequenza dell'avverbio/congiunzione con accentazione piana (ancòra) da quella del nome femminile singolare con accentazione sdrucciola (àncora). Il lemmario distingue inoltre fra i casi in cui la forma compare isolatamente (ad es. 'corto') da quelli in cui compare in parola sintagmatica (ad es. 'a corto di').

Il LEMMARIO include cinque files, che differiscono fra di loro per le informazioni contenute (solo forme, solo lemmi, sia forme che lemmi) e l'ordine (alfabetico diretto, alfabetico inverso,) in cui le forme e i lemmi vengono riportati.

I files possono essere ordinati per rango d'uso (files _rango) della forma o del lemma, oppure per ordine alfabetico inverso (files _inverso).

I files _rango contengono informazioni molto dettagliate riguardo al corpus e ai sottosettori di cui esso è composto; i files _inverso non contengono informazioni riguardo ai sottosettori, ma solo riguardo al corpus in generale.

Nei files _rango sono contenute le seguenti informazioni:

1: Numerazione del Lemma: numero intero, corrisponde alla numerazione del lemma (il numero è lo stesso per un dato lemma e per tutte le forme di quel lemma).
2: Frequenza Totale: frequenza assoluta totale della forma o del lemma nel corpus;
3: Frequenza Quotidiani: frequenza assoluta totale nel settore quotidiani della forma o del lemma;
4: Frequenza Periodici: frequenza assoluta totale nel settore periodici della forma o del lemma;
5: Frequenza Libri: frequenza assoluta totale nel settore libri della forma o del lemma;
6: Dispersione Totale: dispersione nel corpus della forma o del lemma;
7: Dispersione Quotidiani: dispersione nel settore quotidiani della forma o del lemma;
8: Dispersione Periodici: dispersione nel settore periodici della forma o del lemma;
9: Dispersione Libri: dispersione nel settore libri della forma o del lemma;
10: Frequenza Relativa Totale: frequenza relativa nel corpus della forma o del lemma;
11: Frequenza Relativa Quotidiani: frequenza relativa nel settore quotidiani della forma o del lemma;
12: Frequenza Relativa Periodici: frequenza relativa nel settore periodici della forma o del lemma;
13: Frequenza Relativa Libri: frequenza relativa nel settore libri della forma o del lemma;
14: Rango uso: rango d'uso della forma o del lemma rispetto all'uso nel corpus totale;
15: Lunghezza: lunghezza in caratteri.
16: Forma o Lemma: sequenza contenente la forma o il lemma.
17: Categoria Grammaticale: la categoria grammaticale del lemma.

Nei files _inverso sono contenute le seguenti informazioni:

1: Frequenza: frequenza assoluta totale della forma o del lemma nel corpus.
2: Frequenza Relativa Totale: uso o frequenza relativa nel corpus della forma o del lemma.
3: Rango d'uso: rango d'uso della forma o del lemma rispetto all'uso nel corpus totale.
4: Lunghezza: lunghezza in caratteri.
5: Forma o Lemma: sequenza contenente la forma o il lemma.
6: Categoria Grammaticale: la categoria grammaticale del lemma.

I codici utilizzati per identificare le Categorie Grammaticali sono i seguenti:

B Avverbio C Congiunzione
E Nome proprio G Aggettivo
I Interiezione K Punteggiatura
N Pronome NU Numerale
P Preposizione R Articolo
S Sostantivo TC Tempo composto di un verbo
V Verbo VA Verbo ausiliare
X Lingua non ben identificata Z Simbolo
@ Parola sintagmatica

(Il simbolo @ non si trova mai da solo, ma sempre in combinazione con una categoria grammaticale, ad esempio possiamo trovare E@. Questa combinazione di codici identifica una parola sintagmatica nominale, ad esempio 'La febbre del sabato sera'. Oppure possiamo trovare S IN E@: Nell'esempio fatto in precedenza, ci riferiamo al sostantivo 'sera', che è categorizzato come S IN E@, ossia sostantivo in una parola sintagmatica nominale).

files .txt

[ txt ]forme-rango.zip

[ txt ] lemmi-rango.zip

[ txt ] lemmi e forme-rango.zip

[ txt ] forme-inverso.zip

[ txt ] lemmi-inverso.zip

files .mdb

[ mdb ] forme-rango.zip

[ mdb ] lemmi-rango.zip

[ mdb ] lemmi e forme-rango.zip

[ mdb ] forme-inverso.zip

[ mdb ] lemmi-inverso.zip

 

files .dbf

[ dbf ] forme-rango.zip

[ dbf ] lemmi-rango.zip

[ dbf ] lemmi e forme-rango.zip

[ dbf ] forme-inverso.zip

[ dbf ] lemmi-inverso.zip