CoLFIS č una banca dati lessicale dell’Italiano scritto, con le seguenti caratteristiche salienti: si basa su un corpus bilanciato di oltre 3 milioni di parole, che rispecchia le tendenze di lettura degli italiani desunte da dati ISTAT; i dati lessicali estratti dal corpus sono compiutamente lemmatizzati e annotati rispetto alle parti del discorso;
fornisce, a partire da questo corpus, un lessico/dizionario di frequenza sia per i lemmi (lemmario) sia per le forme (formario), anche inversi. CoLFIS č stato realizzato da un gruppo di lavoro coordinato da
Pier Marco Bertinetto (Scuola Normale Superiore, Pisa), Cristina Burani (Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma), Alessandro Laudanna (Università di Salerno), Lucia Marconi - Daniela Ratti - Claudia Rolando (Istituto di Linguistica Computazionale, Unità Staccata di Genova, CNR, Genova), Anna Maria Thornton (Università de L’Aquila).
---------------------------------------------------------------------------------------------
CoLFIS is a lexical database of written Italian, with the following features:
it is based on a balanced corpus of over 3 millions words, reflecting the reading habits of the Italian population as inferred by ISTAT data; the lexical data are fully lemmatized and part-of-speech annotated; it provides a frequency lexicon/dictionary for both lemmas (“lemmario”) and forms (“formario”).
CoLFIS was realized by a research teams including Pier Marco Bertinetto (Scuola Normale Superiore, Pisa), Cristina Burani (Istituto di Scienze e Tecnologie della Cognizione, CNR, Roma), Alessandro Laudanna (Università di Salerno), Lucia Marconi - Daniela Ratti - Claudia Rolando (Istituto di Linguistica Computazionale, Unità Staccata di Genova, CNR, Genova), Anna Maria Thornton (Università de L’Aquila).
---------------------------------------------------------------------------------------------
CoLFIS si può consultare in due modi, ossia attraverso:
- la nuova interfaccia EsploraCoLFIS, disponibile dal 2012 e realizzata da Valentina Bambini e Marco Trevisan, che arricchisce le potenzialità di interrogazione della banca-dati.
ENTRA.
- l'interfaccia realizzata nel 1995 (linguistica.sns.it/CoLFIS/Descrizione.htm), che esiste anche presso l'Istituto di Scienze e Tecnologie della Cognizione di ROMA (ww.istc.cnr.it/material/database/colfis/); inoltre, con specifica interfaccia, presso l'Istituto di Linguistica Computazionale di Genova (www.ge.ilc.cnr.it/strumenti.php).
---------------------------------------------------------------------------------------------
Ulteriori espansioni:
derIvaTario (Talamo L., Celata C., Bertinetto P.M.) ENTRA
derIvaTario is an annotated lexicon of about 11,000 Italian derivatives and is based upon CoLFIS corpus
Italian Phonetic Lexicon (Jeremy Goslin, Claudia Galuzzi, & Cristina Romani) ENTRA
Semant-It. Spazi semantici distribuzionali in CoLFIS (Senaldi M.S.G., Lebani G., Passaro L. & Lenci A.) Spazi semantici distribuzionali in CoLFIS. ENTRA
Wuggy: a multilingual pseudoword generator (Keuleers, E., & Brysbaert, M. - in preparation) ENTRA