Laboratorio di Linguistica
'Giovanni Nencioni'
Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Corpus e Lessico di Frequenza dell'Italiano Scritto
(CoLFIS)

 

CoLFIS č una banca dati lessicale dell’Italiano scritto, con le seguenti caratteristiche salienti: si basa su un corpus bilanciato di oltre 3 milioni di parole, che rispecchia le tendenze di lettura degli italiani desunte da dati ISTAT; i dati lessicali estratti dal corpus sono compiutamente lemmatizzati e annotati rispetto alle parti del discorso; fornisce, a partire da questo corpus, un lessico/dizionario di frequenza sia per i lemmi (lemmario) sia per le forme (formario), anche inversi. CoLFIS č stato realizzato da un gruppo di lavoro coordinato da Pier Marco Bertinetto (Scuola Normale Superiore, Pisa), Cristina Burani (Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma), Alessandro Laudanna (Università di Salerno), Lucia Marconi - Daniela Ratti - Claudia Rolando (Istituto di Linguistica Computazionale, Unità Staccata di Genova, CNR, Genova), Anna Maria Thornton (Università de L’Aquila).

---------------------------------------------------------------------------------------------

CoLFIS is a lexical database of written Italian, with the following features: it is based on a balanced corpus of over 3 millions words, reflecting the reading habits of the Italian population as inferred by ISTAT data; the lexical data are fully lemmatized and part-of-speech annotated; it provides a frequency lexicon/dictionary for both lemmas (“lemmario”) and forms (“formario”).
CoLFIS was realized by a research teams including Pier Marco Bertinetto (Scuola Normale Superiore, Pisa), Cristina Burani (Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma), Alessandro Laudanna (Università di Salerno), Lucia Marconi - Daniela Ratti - Claudia Rolando (Istituto di Linguistica Computazionale, Unità Staccata di Genova, CNR, Genova), Anna Maria Thornton (Università de L’Aquila).

---------------------------------------------------------------------------------------------

CoLFIS si può consultare in due modi, ossia attraverso:

- la nuova interfaccia EsploraCoLFIS, disponibile dal 2012 e realizzata da Valentina Bambini e Marco Trevisan, che arricchisce le potenzialità di interrogazione della banca-dati.

ENTRA. 

 

- l'interfaccia realizzata nel 1995 (linguistica.sns.it/CoLFIS/Descrizione.htm), che esiste anche presso l'Istituto di Scienze e Tecnologie della Cognizione di ROMA (ww.istc.cnr.it/material/database/colfis/); inoltre, con specifica interfaccia, presso l'Istituto di Linguistica Computazionale di Genova (www.ge.ilc.cnr.it/strumenti.php).

---------------------------------------------------------------------------------------------

Ulteriori espansioni:

derIvaTario (Talamo L., Celata C., Bertinetto P.M.) ENTRA
derIvaTario is an annotated lexicon of about 11,000 Italian derivatives and is based upon CoLFIS corpus


Italian Phonetic Lexicon
(Jeremy Goslin, Claudia Galuzzi, & Cristina Romani) ENTRA

Semant-It. Spazi semantici distribuzionali in CoLFIS (Senaldi M.S.G., Lebani G., Passaro L. & Lenci A.) Spazi semantici distribuzionali in CoLFIS. ENTRA

Wuggy: a multilingual pseudoword generator (Keuleers, E., & Brysbaert, M. - in preparation) ENTRA

 

---------------------------------------------------------------------------------------------

Come citare CoLFIS / How to quote CoLFIS:
Bertinetto Pier Marco, Burani Cristina, Laudanna Alessandro, Marconi Lucia, Ratti Daniela, Rolando Claudia, Thornton Anna Maria. 2005. Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS). http://linguistica.sns.it/CoLFIS/Home.htm

 

Per info: lab.linguistica@sns.it

L’opera è stata realizzata col finanziamento del CNR, che per molto tempo ha svolto una meritoria opera di sostegno alla ricerca italiana (Comitati Nazionali "Scienze e Tecnologie dell'Informazione" e "Scienze Storiche, Filosofiche e Filologiche". Finanziamento a: “Banca dati lessicale dell'Italiano scritto contemporaneo”). Gli autori contano sulla collaborazione degli utenti per allargare e migliorare il servizio offerto, aumentandone le funzioni e la fruibilità.