torna a Colfis
torna a Criteri di Lemmatizzazione
SOSTANTIVI
1 Femminili
.....1.1 Femminili animati
Il lemmatizzatore assegnava tutti i sostantivi alla loro forma singolare. Le ricorrenze dei sostantivi femminili animati, anche quando esista una forma maschile corrispondente, erano quindi riportate a lemma; ad esempio, organizzatrice è lemmatizzato uguale a sé stesso.
Si è adottato lo stesso criterio anche in CoLFIS, correggendo manualmente laddove il lemmatizzatore riportava al maschile; per es., attrice ATTORE.
.....1.2 Altri lemmi femminili
In casi come le politiche, le europee, le comunali (sottinteso elezioni) si è deciso di lemmatizzare al femminile plurale ('pluralia tantum').
2.Sostantivi alterati
I sostantivi alterati, come gli aggettivi alterati, sono stati lemmatizzati inizialmente come lemmi autonomi. In una seconda fase di correzione manuale si è aggiunto ad ogni alterato (aggettivi e sostantivi) un rimando al lemma positivo corrispondente.
I sostantivi in -issimo, quali partitissima, finalissima, governissimo sono stati lemmatizzati come tali, e non ricondotti ai sostantivi partita, finale e governo
3. Sostantivi più comuni al plurale
I sostantivi usati più comenemente al plurale, come mutande, pantaloni, ma il cui singolare esiste, sono stati lemmatizzati sotto il singolare.
4. Altre categorie sostantivate
Qualsiasi forma funzionante come sostantivo è stata categorizzata come sostantivo (aggettivi sostantivati, infiniti sostantivati e altre parti del discorso sostantivate, esclusi i numerali che hanno un trattamento a sé).
5. Nomi di colore
Per alcuni composti indicanti nomi di colore, si è deciso di operare nel seguente modo:Una gonna grigio ferro, Un gilè grigio perla, Una giacca color rosso, ferro, perla, rosso sono stati considerati sostantivi e grigio aggettivo.
In Dei ricami avorio, avorio ha la funzione di Aggettivo mentre in Dei ricami color avorio, avorio ha la funzione di sostantivo.
In vestire di/in bianco, bianco è stato considerato sostantivo.
In di un bel blu elettrico, blu è stato considerato sostantivo e elettrico aggettivo.
6. Composti con trattino
I composti scritti con trattino sono stati trattati come due parole separate. Ad esempio, baby-estorsori è trattato come Baby Sostantivo BABY, - come punteggiatura, estorsori come sostantivo ESTORSORE.
Fanno eccezione i casi in cui uno dei membri del composto con trattino non è un lemma semanticamente autonomo, ma un modificatore. Quindi catto-leghista è stato trattato come un unico lemma, ossia CATTO-LEGHISTA.
I composti scritti staccati sono stati lemmatizzati separatamente: decreto salva potenti , sostantivo, verbo, sostantivo;
Invece composti verbo-nome con trattino sono stati riportati a lemma: porta-agenda, PORTA-AGENDA sostantivo.
7. Vari tipi di prefissati
Un caso particolare è costituito dai prefissi "factored out". Esempio: in pre e post-scuola,pre e post sono stati considerati aggettivi e lemmatizzati uguali a se stessi.
Altri prefissati scritti con trattino sono stati lemmatizzati unitariamente: anti-Cossiga è assegnato al lemma aggettivale ANTI-COSSIGA.
8. Casi particolari
Cosa, quando introduce interrogative dirette o indirette, è pronome. Nella sintagmatica che cosa è invece trattato come sostantivo , mentre il che è un aggettivo .
In ieri mattina /pomeriggio / sera, mattina, pomeriggio e sera sono classificati come sostantivi.
In casi tipo la serie A, A è stato considerato sostantivo.
In i nostri 007, 007 è stato considerato sostantivo.
9. Casi che potrebbero essere interpretati come numerali
In il primo della classe, il primo della lista, primo è in stato categorizzato come un sostantivo.
In l'una di notte e sim., una è stato classificato come sostantivo.
Paio, Decina, Dozzina, Centinaio, Migliaio e sim.: siccome non denotano quantità precise, sono stati qualificati come sostantivi e non come Numerali.
10. Dialettalismi
Le forme di dialetti italoromanzi (esclusi il sardo e il friulano che sono tradizionalemnte considerate lingue a sé) sono state riportate al lemma italiano etimologicamente corrispondente.
Per esempio:
Totò Riina detto `u curtu: `u è stato riportato a IL e curtu a CORTO.
Lo Spedale degli Innocenti: Spedale è stato riportato a OSPEDALE.
Marescia' è stato trattato come MARESCIALLO.
Il Senatur: Senatur è stato trattato come SENATORE.
Si è lemmatizzato con asterisco anche il dialettalismo dane' in DANARO.
11. Esotismi
Il LIP lemmatizza come Esotismi oltre 120 parole che per la stragrande maggioranza sono e funzionano come sostantivi (es. aikido, bagarre, body,..). Alcuni sono molto acclimatati in italiano (es. box, club, depliant, extra, fax, ...). Inoltre, la classificazione come esotismo non era coerentemente applicata dal lemmatizzatore: lo stesso LIP classifica come Sostantivi e non come Esotismi, per es., pullman e ticket.
Dal punto di vista logico, l'essere esotismo o meno è una proprietà indipendente dalla categoria grammaticale di una parola. Nella base di dati ideale, questa informazione andrebbe in un campo che indica l'etimologia della parola, non in quello che indica la categoria grammaticale. Quindi nella correzione della lemmatizzazione è stata abolita la categoria Esotismo e ogni parola straniera è stata assegnata alla categoria grammaticale appropriata. Poiché questa categoria consiste quasi sempre di Sostantivi, il codice O indicante gli esotismi è stato automaticamente trasformato nel codice S dei sostantivi prima di fornire l'output del lemmatizzatore alla correzione manuale. Questo ha ridotto il numero di interventi di correzione manuale.
I sostantivi inglesi con genitivo sassone vengono lemmatizzati come forme del lemma corrispondente. Esempio: book's diventa BOOK, mentre, quando il genitivo sassone è parte di un nome proprio, esso fa parte del lemma; es., CHRISTIE'S.
Le locuzioni in lingue straniere sono state trattate come le sintagmatiche italiane, coi singoli lemmi riportati alla forma di citazione della lingua corrispondente (i plurali ai singolari, i passati agli infiniti ecc.). Per esempio, nelle locuzioni latine a priori, a posteriori i costituenti sono classificati secondo la categoria latina: a come preposizione, priori come aggettivo.
Minimum tax non è sintagmatica e i singoli lemmi sono stati riportati a MINIMUS aggettivo e a TAX sostantivo.
12. Sostantivi sintagmatici
Si è introdotto il tipo dei sostantivi sintagmatici, specialmente quando essi si incrociano con gli esotismi e quando ci sono più ortografie possibili. Per es., tira e molla, faccia a faccia, téte-à-téte, week-end ecc. In casi come week-end è possibile trovare sia la forma col trattino, sia quella senza trattino (week end).