Metodologia emprada a Goitaquefanara
Introducció
En l'era actual de la televisió i el cinema en línia, les plataformes de streaming són una font cada vegada més important de contingut per als espectadors. No obstant, per als usuaris que volen veure pel·lícules i sèries en català, és difícil saber on és trobar aquest contingut. Per aquest motiu, va nèixer Goitaquefanara
Posteriorment, i per a tenir una base de dades més completa, hem integrat altres fonts de dades com la base de dades de l'Esadir, la base de dades del Departament de Política Linguïstica de la Generalitat de Catalunya i les bases de dades de les pàgines IMDB i TMBD.
Metodologia
La nostra metodologia consta de les següents fases:
- 1. Recopilació automàtica de dades
- 2. Revisió de dades
- 3. Recopilació manual de dades
- 4. Presentació de les dades
1. Recopilació automàtica de dades
Cada dia s'executen una sèrie de processos automàtics que es connecten a les diferents plataformes de streaming per a obtenir la informació de totes les pel·lícules i sèries que tenen àudio o bé subtítols en català. Un cop obtinguda aquesta informació es processa i s'emmagatzema a la base de dades de Goitaquefanara.
Per saber si una pel·lícula o sèrie ja existeix a la base de dades aquests processos fan servir un algorisme que anomenem Score. Aquest, fa un anàlisi basant-se en títol de la pel·lícula o sèrie (en català, castellà i títol original), any de producció, actors i directors i altres dades per poder saber si es troba a la nostra base de dades.
Quan es troba una coincidència a la nostra base de dades, aquesta s'actuatlizta. Sino, es crea un nou registre.
Degut a que la informació que arriba de les plataformes de streaming sol ser incompleta, de vegades es creen títols duplicats a la base de dades degut a que l'Score no disposa de prou informació per a fer la identificació. Aquests problemes es resolen en la fase de revisió.
D'altra banda, també hi ha uns processos diaris que obtenen informació de la base de dades del Departament de Política Linguïstica de la Generalitat de Catalunya i de les pàgines de TMDB i IMDB. Aquests processos ens permeten saber les pel·lícules que hi ha a la cartellera i actualitzar la nostra base de dades.
Per acabar, un cop a la setmana s'executa un procés que obté informació de la pàgina web de l'Ésadir: El portal lingüístic de la Corporació Catalana de Mitjans Audiovisuals.
2. Revisió de dades
Degut a la baixa qualitat de la informació que prové de les plataformes de streaming és necessari fer una revisió periódica de la nova informació que s'integra a la nostra base de dades.
L'equip de Goitaquefanara i alguns voluntaris s'encarreguen d'aquesta tasca de revisió.
També hi ha una sèrie de processos automàtics que participen d'aquesta revisió, com per exemple, els que s'encarreguen de saber si una pel·lícula o sèrie continua oferint-se en una determinada plataforma. De no ser així, al cap d'uns dies aquesta informació es esborrada de la nostra base de dades.
3. Recopilació manual de dades
Membres de l'equip de Goitaquefanara conjuntament amb alguns voluntaris s'encarreguen de recopilar informació de títols que no són a cap de les fons d'informació d'on Goitaquefanara obté informació com, per exemple, pel·lícules lliures de drets que són a Youtube o bé sèries que anys enrere s'havien doblat però aquesta informació no es troba enlloc. Aquesta informació es recopilada, revisada i afegida manualment a la base de dades.
4. Presentació de les dades
La informació recopilada i processada es presentada en una interfície web fàcil d'utilitzar, on els usuaris poden cercar pel·lícules i sèries en català per tipus, gènere i altres característiques.
Goitaquefanara també disposa d'una API que permet l'accés aquesta informació com es fa, per exemple, desde les extensions de navegador de Goitaquefanara
D'altra banda, quan els processos de recopilació automàtica de dades troben novetats, aquestes són publicades automàticament a les xarxes socials de Goitaquefanara: Twitter, Facebook, Telegram i Instagram.
Resultats
La nostra metodologia ha permès recopilar i catalogar un gran volum de contingut en català no només disponible en plataformes de streaming i a la cartellera de cinema sinó també títols que en algún moment han estat doblats o subtitulats però que aquesta informació no es pot trobar enlloc. Això ha convertit Goitaquefanara en la base de dades de contingut audiovisual en català més gran d'internet, proporcionant així una eina valuosa per als usuaris que volen cercar aquesta informació.