Laboratorio di Linguistica
'Giovanni Nencioni'

 

 

 

 

 

 

 

 

HOME

 

DATI

 

CONSULTAZIONE
GRAFI

 

BIBLIOGRAFIA

 

CONTATTI

 

 

 

 

 

I dati

 

Partendo dai file lemmatizzati dei testi autorizzati e non autorizzati, sono stati estratti tre tipi di statistiche di coricorrenza, che come finestra di contesto utilizzano rispettivamente:

  • Finestra ±2: le 2 parole contenuto (nomi, verbi, aggettivi ed avverbi) immediatamente precedenti e immediatamente seguenti la parola target all’interno della stessa frase;
  • Finestra ±5: le 5 parole contenuto immediatamente precedenti e immediatamente seguenti la parola target all’interno della stessa frase;
  • Finestra ±20: le 20 parole contenuto immediatamente precedenti e immediatamente seguenti la parola target all’interno della stessa frase.

I dati dei tre spazi così ottenuti sono riassunti nella seguente tabella:

 

Classi delle parole usate come target e come contesti

Nomi, verbi e aggettivi

Frequenza minima delle parole usate come target

25

Frequenza minima delle parole usate come contesti

10

Numero di vettori target

6465

Numero di contesti

11273

Riduzione della dimensionalità

Singular Value Decomposition
a 100 dimensioni latenti

Finestre contestuali

± 2, ± 5 e ± 20 parole contenuto

Stopwords

Essere, avere, fare, verbi modali, nomi propri, avverbi, aggettivi dimostrativi e possessivi

Weighting della matrice

PPMI (Positive Pointwise Mutual Information)

Misura di similarità semantica

Coseno