Università degli Studi di Pavia

Dipartimento di Studi Umanistici

HomeDidatticaCorsi › Laboratorio di analisi di dati linguistici (c.p.)

Laboratorio di analisi di dati linguistici (c.p.)

Corsi di laurea:
Linguistica teorica ed applicata
Docenti:
Sansò Andrea
Anno accademico:
2006/2007
Codice corso:
58252
Crediti formativi:
10
Ambito:
L-LIN/01 GLOTTOLOGIA E LINGUISTICA
Decreto Ministeriale:
509/99
Ore di lezione:
60

Programma

sito web di riferimento: http://www.unipv.it/larl

Il termine Risorse Linguistiche (RL, language resources) designa un’ampia ed eterogenea classe di risorse elettroniche (corpora, lessici, treebank, databases) utilizzate in misura sempre maggiore nella ricerca linguistica contemporanea. La loro crescente popolarità è dovuta a due ordini di ragioni: in campo linguistico, esse garantiscono la possibilità di testare ipotesi linguistiche su un’ampia mole di dati, etichettati linguisticamente e predisposti per ricerche avanzate; in campo informatico, le risorse linguistiche sono il punto di partenza essenziale per applicazioni che prevedono l’interazione uomo-macchina in linguaggio naturale, per la costruzione di ontologie per motori di ricerca semantici, e per l’estrazione di informazione da testi elettronici (automatic summarization, information retrieval, ecc.).

Il corso di Laboratorio di Analisi di Dati Linguistici mira a introdurre i fondamenti della corpus linguistics e a fornire agli studenti gli strumenti teorici e pratici per l’analisi e lo sfruttamento di risorse linguistiche (corpora, lessici, concordancing tools, ecc.), obiettivo particolarmente importante all’inizio di un biennio di specializzazione in linguistica. Il corso sarà articolato come segue:

Parte I: Introduzione alla corpus linguistics

Parte II: Nozioni elementari di statistica

Parte III: Il web come corpus

Parte IV: La nozione di portabilità

Parte V: Risorse linguistiche per la tipologia, la linguistica storica e l’acquisizione di lingue seconde

Parte VI: I lessici

Parte VII: La standardizzazione. Nozioni di XML

Dato il carattere di laboratorio del corso, la frequenza è vivamente raccomandata. L’esame (orale) avrà come oggetto le tematiche del corso. Agli studenti è richiesta inoltre la stesura di una tesina su un lavoro teorico-pratico individuale o di gruppo (analisi di un fenomeno linguistico su un corpus; valutazione di risorse linguistiche; progettazione e creazione di risorse linguistiche utilizzando i tools a disposizione presso il Dipartimento di Linguistica Teorica e Applicata, ecc.).

Sono previsti seminari sull’uso di Wordsmith per la creazione e l’interrogazione di corpora (dott. Stefano Rastelli) e sugli strumenti per la creazione di corpora paralleli (dott.ssa Maddalena Menchi).

Bibliografia

Letture per l’esame (lista provvisoria):

1) Tony McEnery, Andrew Wilson, Corpus linguistics, Edinburgh: Edinburgh University Press, 2001 (specialmente capp. 1-5, pp. 1-145).

2) Un manuale di XML a scelta: ad es. Heather Williamson, XML: La guida completa, Milano: McGraw-Hill, 2001 (capp. 1-6, 8-9, pp. 3-83 e 97-131); E. R. Harold, W. Scott Means, XML in a Nutshell, 2nd Edition, O’Reilly, 2002 (capp. 1-6) [parti relative alla struttura di XML, a elementi e attributi, e alla DTD].

3) Christiane Fellbaum (ed.), Wordnet. An electronic lexical database, The MIT Press, 1998 (limitatamente a: cap. 1, G.A. Miller, Nouns in WordNet, pp. 23-46; cap. 3, Ch. Fellbaum, A semantic network of English verbs, pp. 69-104).

4) Steven Bird, Gary Simons, “Seven dimensions of portability for language documentation and description”, Language 79 (3), 2003, pp. 557-582.

5) A. Kilgarriff and G. Grefenstette. Introduction to the Special Issue on the Web as Corpus. Computational Linguistics 29 (2003). [da scaricare dal sito web del LARL]

6) A. Lüdeling, S. Evert and M. Baroni. Using Web data for linguistic purposes. To appear in: Marianne Hundt, Caroline Biewer and Nadjia Nesselhauf (eds.), Corpus linguistics and the Web. Amsterdam: Rodopi. [da scaricare dal sito web del LARL]

7) W. Fletcher. Making the Web more useful as a source for linguistic corpora. In: Ulla Connor and Thomas Upton (eds.), Applied corpus linguistics: A multidimensional perspective. Amsterdam: Rodopi (2004). [da scaricare dal sito web del LARL]


Elenco appelli e prove

Nessuna prova presente

Dipartimento di Studi Umanistici

Università degli Studi di Pavia
Segreteria amministrativa: Piazza Botta, 6 - 27100 Pavia
Segreteria didattica: Corso Strada Nuova, 65 - 27100 Pavia
Sezioni del Dipartimento
Email: webmaster.lettere (at) unipv.it