Università degli Studi di Pavia

Dipartimento di Studi Umanistici

HomeDidatticaCorsi › Laboratorio di analisi di dati linguistici (c.p.) (10 CFU)

Laboratorio di analisi di dati linguistici (c.p.) (10 CFU)

Docenti:
Sansò Andrea
Anno accademico:
2004/2005
Decreto Ministeriale:
509/99
Descrizione:
Le risorse linguistiche: creazione, standardizzazione, utilizzo.

Programma

Il corso si compone di due parti. Nella prima parte (30 ore di didattica frontale) si fornirà agli studenti un panorama delle iniziative su scala internazionale nel campo delle risorse linguistiche e della loro standardizzazione. Il termine risorsa linguistica si riferisce a qualsiasi repertorio di dati e descrizioni linguistiche in formato digitale cui attingere come base empirica: le risorse linguistiche sono infatti utilizzate per costruire, migliorare o valutare il funzionamento di algoritmi di analisi del linguaggio naturale, o come strumento per la localizzazione di informazioni, per le transazioni internazionali, l'editoria elettronica etc. Esistono diversi tipi di risorse linguistiche: · corpora etichettati: il tipo di tagging (o etichettatura) più semplice è il POS tagging (POS = Part of Speech "parte del discorso"), che consiste nell'associare ad ogni parola del corpus la sua categoria lessicale. Il POS tagging può essere ottenuto per codifica interamente manuale o per lemmatizzazione (semi)automatica, cioè attraverso confronto delle parole con un dizionario; · database lessicali: un database lessicale è un dizionario computazionale in cui ad ogni lemma è associata informazione linguistica riferita a diversi piani (subcategorization frames, hyperonymy, hyponymy, ecc.); · tree-banks: un livello di tagging superiore al POS tagging è quello sintattico, che consiste nell'evidenziare ed etichettare le unità sintattiche al di sopra della parola (sintagmi, frasi). Una collezione di frasi così codificate si chiama tree-bank; · corpora paralleli: un corpus parallelo, cioè una raccolta di testi in una lingua A e delle corrispondenti traduzioni in una o più lingue B, C, D, ecc., consente non solo di rispondere a un'ampia gamma di domande riguardanti l'analisi e la teoria della traduzione, ma anche di studiare caratteristiche linguistiche tipiche sia dei testi tradotti, sia di quelli originali; · database tipologici: si tratta di risorse che raccolgono documentazione relativa a singoli fenomeni linguistici su scala mondiale o areale (ad esempio il TDIR - Typological database of intensifiers and reflexives, sviluppato a Berlino; i database sull'accordo e sul sincretismo del Surrey Morphology Group; il Database tipologico delle lingue del Mediterraneo, che è in fase di lavorazione all'Università di Pavia, ecc.). Vi sono numerose iniziative internazionali che hanno per scopo l'accumulo di risorse linguistiche come quelle descritte sopra, per diverse lingue. Naturalmente, al fine di rendere comparabili i dati tra i diversi paesi e le diverse organizzazioni, è necessario definire degli standard di trascrizione e codifica dell'informazione linguistica: una parte rilevante delle ricerche nel settore della creazione di risorse linguistiche è data proprio dallo studio degli standard, ed esistono iniziative europee o mondiali che hanno lo scopo specifico di produrre raccomandazioni per chiunque voglia mettersi a costruire una risorsa. Nella seconda parte del corso (30 ore di lavoro domestico) gli studenti metteranno in pratica le conoscenze acquisite in lavori individuali o di gruppo, che possono essere concordati col docente anche sulla base di particolari esigenze in vista della preparazione della tesi finale. Si elencano di seguito alcune di tipologie di lavori individuali e di gruppo possibili (l'elenco è puramente indicativo): · ricerche su corpora di singoli fenomeni linguistici; · recensione di risorse disponibili on-line o presso il laboratorio LARL del Dipartimento di Linguistica; · creazione di contenuti web relativi alla localizzazione di risorse linguistiche; · definizione di standard di annotazione relativi a fenomeni linguistici particolari su corpora monolingui o paralleli. Propedeuticità, programma e bibliografia Il corso non richiede alcuna conoscenza preliminare. La frequenza contemporanea del corso di Linguistica Computazionale è vivamente consigliata.

Bibliografia

In considerazione del carattere pratico-applicativo del corso, non si ritiene di indicare una bibliografia dettagliata preliminare. Eventuali letture saranno indicate durante il corso. Al termine del corso e per sostenere l'esame lo studente è tenuto a presentare una dettagliata relazione del lavoro domestico svolto. L'esame consisterà nella discussione del lavoro individuale e nell'accertamento delle conoscenze acquisite nella prima parte del corso.

Elenco appelli e prove

Nessuna prova presente

Dipartimento di Studi Umanistici

Università degli Studi di Pavia
Segreteria amministrativa: Piazza Botta, 6 - 27100 Pavia
Segreteria didattica: Corso Strada Nuova, 65 - 27100 Pavia
Sezioni del Dipartimento
Email: webmaster.lettere (at) unipv.it