+3 voti
100 visite

1 Risposta

+1 voto
risposta inviata da (4.9k punti)

Un corpus, nella sua definizione generica, è una raccolta ordinata e completa di opere o di autori, ma nel gergo della linguistica ha invece assunto il significato di insieme di testi in formato elettronico uniformemente trattati in modo da essere gestibili e interrogabili informaticamente. I corpora sono quindi degli immensi data base formati da testi accomunati da alcune caratteristiche, ad esempio la lingua, il periodo storico, la provenienza, ecc. e sono suddivisi in token, vale a dire le unità minime in cui è suddivisibile il testo elettronico. Le parti del discorso contenute nei testi sono inoltre classificate in base alla loro funzione come parti del discorso tramite markup, cioè con lemmatizzazioni e annotazioni di vario genere. In questo modo i corpora possono essere analizzati ed elaborati da appositi programmi informatici che consentono di consultare, ricercare, filtrare e generare statistiche del loro contenuto.

Spesso nel settore della traduzione si parla anche di corpora paralleli, che possono essere bilingui o multilingui, vale a dire formati dai testi originali e dalle relative traduzioni in una o più lingue.

Fonte: Cosa è un corpus? Per una definizione più rigorosa di corpus, token, markup

Domande correlate

+3 voti
1 risposta 157 visite
quesito posto 24 Ottobre 2017 in Aspetti linguistici da 2i4rj (3.7k punti)
+3 voti
1 risposta 79 visite
quesito posto 22 Settembre 2017 in Professioni linguistiche da Sara Bua (7.9k punti)
+4 voti
1 risposta 1.8k visite
In DiventareTraduttori potrai porre quesiti sul mondo della traduzione e ricevere risposte da altri membri esperti della community.

Registrati o accedi tramite Facebook per entrare a far parte della community.

Scelti per voi

Il traduttore insostituibileWeb Hosting
...