Il LIP fa rientrare in questa categoria tutti i numeri, cardinali e ordinali, senza distinguere l'uso aggettivale o sostantivale degli ordinali.
Il trattamento di questa categoria è quello che ha posto più problemi di adattamento del lemmatizzatore automatico. Infatti, il lemmatizzatore, tarato sul parlato, riconosce i numerali come tali solo se sono scritti in forma ortografica, ad esempio come millenovecentonovantasei. Nei testi scritti, però, la maggior parte dei numeri non ricorre in forma ortografica, ma in forma di cifre. In tal caso, il lemmatizzatore produceva un output a caso.
Abbiamo quindi assegnato automaticamente il codice NU a tutte le forme costituite interamente di cifre. Questa scelta ha implicato una perdita di informazione, in quanto non si distingue tra funzione sostantivale e funzione aggettivale dei numerali; tuttavia, ha permesso di risparmiare molto lavoro di correzione manuale e di rendere il risultato della nostra lemmatizzazione confrontabile con quello del LIP.
Gli Aggettivi Numerali Ordinali sono stati trattati come Aggettivi e non come Numerali.
La parola mila, nel caso in cui sia stata scritta staccata dal numero che la precede (apparendo quindi su un'altra riga nell'output del lemmatizzatore), è stata classificata Numerale e non Aggettivo e non unita al numero che la precede.
Anche milione, miliardo ecc. sono stati classificati come Numerale (non però paio, decina, dozzina, centinaio, migliaio ecc. che sono stati classificati come Sostantivi).
1. I Numeri romani sono stati classificati come numerali.
2. Altri casi :
- in un anno e mezzo, un è Numerale
- in più di una volta, una è Numerale
-i numeri abbreviati alle ultime due cifre come '97 sia con apice sia senza, sono stati classificati come numerali e lemmatizzati uguali a se stessi.
-Nel cinque e seicento: cinque è stato classificato come Numerale CINQUECENTO e seicento come Num. SEICENTO.