HOME
DATI
CONSULTAZIONE GRAFI
BIBLIOGRAFIA
CONTATTI
|
I dati
Partendo dai file lemmatizzati dei testi autorizzati e non autorizzati, sono stati estratti tre tipi di statistiche di coricorrenza, che come finestra di contesto utilizzano rispettivamente:
- Finestra ±2: le 2 parole contenuto (nomi, verbi, aggettivi ed avverbi) immediatamente precedenti e immediatamente seguenti la parola target all’interno della stessa frase;
- Finestra ±5: le 5 parole contenuto immediatamente precedenti e immediatamente seguenti la parola target all’interno della stessa frase;
- Finestra ±20: le 20 parole contenuto immediatamente precedenti e immediatamente seguenti la parola target all’interno della stessa frase.
I dati dei tre spazi così ottenuti sono riassunti nella seguente tabella:
Classi delle parole usate come target e come contesti |
Nomi, verbi e aggettivi |
Frequenza minima delle parole usate come target |
25 |
Frequenza minima delle parole usate come contesti |
10 |
Numero di vettori target |
6465 |
Numero di contesti |
11273 |
Riduzione della dimensionalità |
Singular Value Decomposition
a 100 dimensioni latenti |
Finestre contestuali |
± 2, ± 5 e ± 20 parole contenuto |
Stopwords |
Essere, avere, fare, verbi modali, nomi propri, avverbi, aggettivi dimostrativi e possessivi |
Weighting della matrice |
PPMI (Positive Pointwise Mutual Information) |
Misura di similarità semantica |
Coseno |
|