Arxiv intel·ligent: Ordenar els articles diaris mitjançant l’aprenentatge de les preferències dels usuaris

2020-02-21

12:15

CSIC

Sala Alberto Lobo (ICE building, UAB Campus)

Intelligent Arxiv: Sort daily papers by learning users topic preferences

Presentem i discutim algunes aplicacions noves de la tècnica d'Anàlisi Discriminatori Lineal (LDA) d'Aprenentatge Automàtic (ML). Primer en el camp de les recerques de Nova Física (NP) en l'LHC, on actualment estem aplicant aquesta tècnica de ML sense supervisió per trobar NP com a temes emergents. Motivats per aquesta poderosa eina perseguim l'objectiu de classificar els treballs diaris d’Arxiv en determinats camps segons les preferències de cada usuari.

Modelem un article científic perquè es construeixi com una combinació de diferents coneixements científics de diversos temes en un nou problema. Apliquem llavors la tècnica d'aprenentatge automàtic (sense supervisió) LDA per construir i extreure temes del corpus de documents. Obtenim els pesos dels temes dels treballs disponibles i nous Arxiv, i determinem les preferències de cada usuari en els temes d'acord amb les preferències de cada usuari en els treballs.

Això ens permet determinar la preferència personal en els nous treballs d'acord amb la distribució de pesos per temes. Hem creat la interfície web IArxiv.org on els usuaris poden llegir les publicacions diàries d’Arxiv classificades personalment (i més) mentre l'algoritme aprèn les seves preferències. El que ens permet una classificació més precisa cada dia. La versió actual d’IArxiv.org funciona en les categories astro-ph, gr-qc, hep-ph i hep-th.