Sannita

Il radicale (a piede) libero

Integrazione di Wikizionario in Wikidata: un quadro esaustivo

1 Commento

1. Introduzione
Questo post è nato per uso personale, ossia per far leggere a un amico (admin su Wikizionario) una sintesi comprensibile della proposta di integrazione di Wikizionario in Wikidata. Dopodiché, ho deciso di riscriverlo e ampliarlo perché poteva tornarmi utile per far capire la situazione complessa alla base di questa integrazione.

2. Premessa
In questo post, do per scontato che si sappia che cos’è Wikidata e che si sta lavorando per integrare tutti i progetti della Wikimedia Foundation (WMF) al suo interno, perché possano sfruttarne le potenzialità.

Ogni progetto WMF ha, ovviamente, le sue peculiarità e questo si ripercuote sulla relativa difficoltà di far partire le integrazioni. Wikizionario è sicuramente quello più “difficile” da integrare. Vediamo perché.

La regola di base è che, per ogni soggetto che ha una pagina su un qualsiasi progetto WMF, ci sia un rapporto di 1:1 con Wikidata. Per esempio: Q172599 è l’elemento a cui fa riferimento tutto quello che riguarda il “soggetto” Giacomo Leopardi, quindi tutte le pagine di Wikipedia, Wikisource e Wikiquote (magari ci sono anche altri progetti, ma per ora ci limitiamo a questi) che lo riguardano devono fare riferimento a questo elemento e solo a questo elemento.

Il motivo è che, all’interno di quell’entry, non vengono contenuti solo i collegamenti ai progetti, ma anche i dati fondamentali riguardanti il soggetto (data di nascita, luogo di nascita, data di morte, luogo di morte, nazionalità, sesso, occupazione, codici di autorità…). Questo non vale solo per le biografie, ma per tutto l’ambito di azione dei progetti WMF: geografia, storia, chimica, matematica, musica, sport, arte, astronomia, cinema, biologia…

Il problema di Wikizionario è che questa semplice regola non può essere applicata, perché la stessa parola può avere due diversi significati in due lingue differenti, ossia può rappresentare due concetti differenti nonostante venga scritta nello stesso modo. Questo mette in crisi l’approccio di Wikidata e costringe alla ricerca di una soluzione “alternativa”.

3. La “complicazione” OmegaWiki
Wikizionario è sempre stato al centro di proposte – più o meno equilibrate o strampalate – per cercare di risolvere i suoi “problemi fondamentali” (la definizione di tali problemi varia a seconda del proponente).

Il tentativo più concreto di “risolvere” questi “problemi” è stato OmegaWiki, nato nel 2004 con il nome transitorio (ma molto esplicativo) di “Ultimate Wiktionary”. Al contrario di Wikizionario (suddiviso per base linguistica, come tutti gli altri progetti WMF), OmegaWiki avrebbe concentrato tutto il suo patrimonio di dati in un unico database, basato su Semantic MediaWiki. Finì che il progetto fece fork e diventò indipendente, ossia uscì dal perimetro dei progetti WMF, intorno al 2006-2007.

Intorno a ottobre 2012, si è iniziato a discutere del possibile rientro del fork, anche spinti dal fatto che nel frattempo WMF stava discutendo dell’incorporazione di Wikivoyage (“ma questa è un’altra storia“, cit.). La proposta è stata formalizzata nel febbraio 2013. Tuttavia, si ponevano vari problemi, alcuni anche di difficile risoluzione:
1. le strutture dei due progetti erano e sono differenti (MediaWiki per Wikizionario e Semantic MediaWiki per OmegaWiki);
2. non si sapeva quale dei due progetti avrebbe dovuto “travasare” i propri contenuti nell’altro;
3. pure se si fosse raggiunto l’accordo, la fusione fra i due database sarebbe stata un’impresa improba per le piccole comunità che sorreggono quei progetti;
4. ormai le due comunità erano “cresciute” separate l’una dall’altra e varie comunità wikizionariane (in particolare anglofona, francofona, tedesca e russa) non erano del tutto favorevoli all’integrazione di OmegaWiki;
5. il fatto che WMF sembrasse favorevole all’integrazione era sicuramente un motivo in più per scatenare l’opposizione di parte delle comunità interessate.

La proposta venne messa temporaneamente da parte, in attesa di tempi migliori. Nel frattempo, si è iniziato a discutere di come integrare Wikizionario in Wikidata: dalle due proposte fatte inizialmente (quella “originale” e quella “alternativa“), ne è scaturita una terza, che si potrebbe definire “di compromesso” e che ha preso in considerazione sia la possibilità di integrare i contenuti di OmegaWiki che altre forme di dizionari online.

4. La proposta attuale
Come detto, la proposta attuale è una via di mezzo fra l’attuale Wikizionario e OmegaWiki, così come una via di mezzo fra la proposta originale e quella alternativa.

Al momento, su Wikidata abbiamo tre differenti namespace per:
* gli elementi (Qxxx), ossia i singoli soggetti che raggruppano voci, categorie, template, pagine etc. di Wikipedia e Wikivoyage (e nei prossimi mesi di tutti gli altri progetti);
* le proprietà (Pxxx), ossia i campi in cui vengono strutturati i dati dei singoli elementi;
* le query (diciamo che ci sono, anche se verranno ufficialmente presentate entro fine ottobre), che saranno una combinazione di elementi e proprietà e che permetteranno di avere liste automatiche e dinamiche, al posto delle liste che abbiamo adesso.

La proposta prevede l’aggiunta di un quarto namespace per i lessemi (Wxxx), da cui dipenderanno le forme (Fxxx) e i significati (Sxxx). Forme e significati non avranno un namespace a parte, ma saranno subordinati ai lessemi e a loro connessi da una relazione 1:1 (una forma o un significato = un lessema, ma i lessemi potranno avere più forme e più significati).

Il lessema (ossia la parola nuda e cruda o un set di parole) sarà composto da:
1) un lemma, ossia dalla forma canonica che si trova in un dizionario (es. “mela”, “correre”, “balena bianca”…);
2) una categoria lessicale (sostantivo/aggettivo/verbo/congiunzione/$eccetera, con link all’elemento esplicativo su Wikidata, es. Q1084/Sostantivo);
3) una lingua (ogni lessema sarà legato a un solo linguaggio, con link all’elemento esplicativo su Wikidata, es. Q652/Italiano);
4) una serie di forme Fxxx (singolare/plurale/neutro, nominativo/genitivo/dativo/accusativo/vocativo/ablativo/$eccetera, tempo verbale e così via, con link all’elemento esplicativo su Wikidata, es. Q110786/Singolare);
5) una serie di significati Sxxx (ciascun significato può essere tradotto in x lingue, ma sono comunque i significati di quel lessema in quella particolare lingua);
6) una serie di affermazioni (“fa rima con”, “opposto di”, “sinonimo di”, “relativo a”…).

Ad esempio, “apple” (inglese), “mela” (italiano), “apfel” (tedesco), “manzana” (spagnolo), “maçã” (portoghese), “pomme” (francese) e così via avranno ciascuno un proprio lessema Wxxx, con una o più forme Fxxx e uno o più significati Sxxx. Un altro esempio è dato da questa immagine, dove la stessa parola (“hamburger”) viene indicata con due diversi lessemi, il primo inglese e il secondo tedesco.

Un approccio del genere permetterebbe di tutelare le specificità di ogni lingua, ragionando per “concetti” o lessemi (più o meno l’approccio di OmegaWiki), così come la separazione linguistica finora tenuta da Wikizionario.

5. Problemi e critiche
Ci sono due grossi problemi, uno tecnico e uno più “filosofico”.

Il problema tecnico riguarda l’impossibilità, per il momento, di poter accedere ad altri elementi. Ogni pagina, come detto all’inizio, è collegata a un elemento, dunque può trarre informazioni solo da quell’elemento e non da un altro. L’intenzione di Wikizionario, invece, è quella di mostrare per un dato lessema tutte le forme e i significati delle varie lingue – anche se confliggenti. Questo significa che la pagina “hamburger” su Wikizionario in italiano deve poter accedere a tutti i lessemi “hamburger” esistenti, a prescindere dalla lingua a cui sono collegati.

Se il problema tecnico è tuttavia risolvibile in qualche modo, il problema “filosofico” è invece di ancor più difficile soluzione e mi è stato posto dal mio amico amministratore, quando gli ho mostrato la prima versione di questo post. La proposta di integrazione che abbiamo discusso finora rischia di svuotare Wikizionario di qualsivoglia senso.

Mi spiego meglio: sicuramente, gestire in questo modo il dizionario è molto più semplice e pratico. Attualmente, la quantità di informazioni presenti per un dato lessema varia (anche sensibilmente) da versione a versione, né è un mistero che, dei circa 170 Wikizionari esistenti, solo una manciata siano davvero attivi.

L’approccio proposto sarebbe molto utile per le comunità piccolissime (ossia il 95% dei Wikizionari esistenti, versione in italiano inclusa), perché automatizzerebbe una larghissima parte di funzioni e permetterebbe di concentrare gli sforzi solo sulla produzione di “valore aggiunto” (in sostanza, il controllo degli errori e le traduzioni mancanti dei significati dei singoli lessemi), oltre che semplificare notevolmente l’esposizione del prodotto finale ai lettori.

Tuttavia, il problema risiede nel “luogo” in cui i wikizionariani lavoreranno dopo l’integrazione: se tutti i dati saranno ospitati da Wikidata, è logico supporre che sarà più veloce e semplice lavorare direttamente su Wikidata riguardo i contenuti, limitando le azioni su Wikizionario all’ambito tecnico o comunque di “esposizione” dei contenuti (e non più di creazione). Un passaggio logico che sarà molto difficile da far digerire alle comunità, senza dubbio, perché di fatto Wikizionario verrà ridotto a una semplice “vetrina” di dati strutturati altrove.

La principale obiezione (“Wikidata non è obbligatoria, se la comunità sceglie di non avvalersene, nessuno la imporrà“) in realtà non risolve il problema, perché pone un dilemma non facile e comunque “costoso”:
a) se si sceglie di non avvalersi di Wikidata, si rimarrebbe isolati rispetto alle altre comunità che invece l’adottano e si continuerebbe ad avere gli stessi problemi di sempre;
b) se si sceglie di avvalersene, anni di sforzi tecnici per migliorare la resa sarebbero resi vani in pochi minuti, ma soprattutto la comunità sarebbe posta di fronte alla scelta di passare su Wikidata “per risparmiare tempo” o abbandonare Wikizionario (a favore di un altro progetto o per sempre).

Per quanto si possa giudicare questa critica infondata o rispondere che “ogni rivoluzione ha le sue vittime”, si tratta comunque di un punto di vista che va considerato – anche perché lo stesso identico problema di cannibalizzazione può ripetersi per Wikispecies (ma anche questa è un’altra storia).

Annunci

Autore: Sannita

Nato nel 1985 a Benevento, laureato triennale a Roma Tre e magistrale alla LUISS in Scienze Politiche, scrive da quando ha 16 anni e mezzo. Dopo anni passati a far gavetta e studiare, è diventato un giornalista pubblicista freelance. Siccome non ama starsene con le mani in mano, nel suo tempo libero è - dal 2006 - utente di Wikipedia in italiano. Dal 5 aprile 2014, è nel direttivo dell'Associazione Wikimedia Italia, prima come segretario (2014-2016) e ora come responsabile progetti.

One thought on “Integrazione di Wikizionario in Wikidata: un quadro esaustivo

  1. La cosa è controversa purtroppo. Le comunità non la digeriranno molto bene.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...