logo_blanc
Rechercher

Big Data : Le Milieu Académique Est-Il Encore Pertinent ?

Big DataCrédit : Flickr

La révolution Big Data a transformé plus que l’industrie. Elle redéfinit également la façon dont la recherche académique est aujourd’hui menée. À mesure que les méthodes quantitatives de calcul imprègnent de plus en plus les disciplines académiques non-traditionnelles, elles remettent en cause l’équilibre traditionnel dans lequel le monde universitaire fonde de nouvelles approches et comment l’industrie les commercialise.

À l’ère du Big Data, seule une poignée d’universités possèdent les ensembles de données, les ressources informatiques et l’expertise nécessaires afin de réaliser des avancées majeures, et même ces institutions s’associent généralement avec de grandes entreprises pour accéder à leurs ressources, uniques. Cela soulève une vraie question : comment les agences subventionnaires comme la National Science Foundation (NSF) des États-Unis peuvent rester pertinentes à une époque où leurs examinateurs, issus en grande partie du monde universitaire, sont de moins en moins capables de faire face au domaine exponentiel des mégadonnées ?

En tant que personne qui régulièrement écrit sur le Big Data, je reçois plusieurs communiqués de presse par semaine d’universités vantant leur dernière subvention, publication ou publication de site web liées au Big Data ou à l’apprentissage profond. J’ai, également, pris l’habitude de régulièrement jeter un œil sur les bases de données des principaux bailleurs de fonds comme la NSF, pour être au fait des nouvelles et dernières recherches intéressantes et des tendances générales, notamment en matière de Big Data et d’apprentissage profond.

Une des tendances qui m’a particulièrement frappé est l’écart grandissant entre le travail universitaire et les progrès du secteur des données –commerciales comme grand public-, dont la grande majorité est publiée en dehors des universités, sur des blogs et des médias sociaux. Les personnes qui effectuent ce genre de recherches sont aujourd’hui rarement affiliées à une institution académique, et la plupart n’ont d’ailleurs jamais rien publié quoique ce soit qui soit lié à une institution académique.

Quand je vois qu’un groupe de recherche universitaire a reçu un financement d’un million d’euros ou de dollars, peu importe, afin de rechercher quelques millions de tweets ; ou plusieurs millions de dollars pour lancer quelques centaines de giga-octets dans ElasticSearch ; ou quelques centaines de milliers de dollars pour produire quelques dizaines de documents à l’aide d’un progiciel commercial standard qui prendra environ 15 secondes de temps de calcul, je dois m’arrêter pour demander comment ces projets échappent au processus d’examen par des pairs qui, en théorie, aurait dû les arrêter dès le départ.

En termes de puissance de calculs, l’écart est similaire. Lorsque je vois que des subventions sont allouées pour des heures et des heures de calculs réalisés par un superordinateur, capable d’exécuter un ensemble de données spécifique à travers un logiciel spécifique, et prétendre que cette machine est la seule au monde capable de réaliser cette analyse, alors que j’utilisais ce même ensemble de données sur mon MacBook Air il y cinq ans… Je me demande véritablement comment il peut y avoir une telle déconnexion entre ce que les agences de financements approuvent, et l’état actuel du monde en dehors des académies.

En bref, les mêmes tendances qui bouleversent les études académiques affectent les processus d’attribution des subventions, qui contrôlent le flux d’argent et des ressources informatiques dans le milieu académique.

La National Science Foundation (NSF), l’un des principaux bailleurs de fonds américain en matière de sciences sociales, offre une étude de cas utile, en tant qu’organisme fédéral tenu par la loi de publier certaines statistiques, notamment sur la façon dont elle distribue l’argent des contribuables qu’elle contrôle.

Le mois dernier, j’ai demandé à l’agence comment elle répondait au fossé grandissant entre le monde universitaire et le monde de la recherche ouverte et non académique. En particulier, je me suis intéressé à la façon dont elle équilibre ses groupes d’évaluateurs, afin de s’assurer de la représentation suffisante de l’extérieur du milieu universitaire. En effet, avoir un groupe d’examinateurs tous issus du milieu académique augmenterait la probabilité qu’un programme de subvention donné manque d’expertise, par rapport aux derniers développements commerciaux, et qu’il ne soit pas familier avec les progrès dans des pays comme la Chine, qui investissent massivement dans des domaines comme l’IA et où une quantité considérable de recherche n’est pas republiée en anglais.

Compte tenu de la prédominance de l’anglais en tant que lingua franca du monde savant, les meilleurs chercheurs du monde, quel que soit leur pays d’origine, publient généralement des avancées majeures dans les revues, en anglais, et présentent des conférences en anglais également. Mais cela laisse une myriade d’études et de recherches publiées dans des milieux non-académiques et dans une langue locale, qui sont peu susceptibles de remonter aux oreilles des universitaires anglophones, et dans ce cas précis, américains. En résumé, étant donné que les chercheurs ne sont pas familiarisés aux recherchent locales, publiées en langue étrangère, comme la NSF s’assure-t-elle que ses examinateurs sont en mesure de vérifier correctement les propositions, afin de s’assurer qu’elles sont nouvelles et non simplement une redite d’une recherche déjà largement publiée dans la littérature d’un pays non anglophone, que les chercheurs connaissent mal, ou pas du tout ?

Même au sein du monde anglophone, le nombre croissant de recherches novatrices menées par des non-universitaires et publiées dans des lieux non traditionnels représente un défi. Ainsi la société GitHub (une entreprise de développement logiciel et de service) offre un vaste répertoire d’algorithmes, d’analyses et même de rapports entiers créés par des passionnés des données, sans affiliation académique, qui ont simplement réfléchi à une question intéressante et effectué une analyse complète pour la publier et la rendre accessible au monde entier.

Aujourd’hui, les entreprises sont souvent celles qui font les plus grands progrès en matière de Big Data et de recherche sur l’IA. Et bien qu’elles publient traditionnellement des avancées majeures dans la littérature académique, le secret commercial freine la publication de pas mal de recherches sur des nouvelles technologies. Elles sont alors généralement publiées après la sortie commerciale, voire pas du tout. Ainsi, la plupart des technologies qui font le succès des grandes entreprises ne sont pas rendues public, tant qu’elles ne sont pas devenues obsolètes et que les entreprises sont passées à la technologie suivante, offrant le système au reste du monde, pour voir ce qui peut en être fait. Par ailleurs, la majorité du contenu d’entreprise tend à être publié de manière plutôt informelle et difficile d’accès, comme sur des blogs d’ingénierie et des comptes de médias sociaux, qui détaillent des analyses et des recherches incroyablement sophistiquées. Si sophistiquées, qu’au sein du monde académique, elles mériteraient bien une publication dans un journal.

Peu de chercheurs universitaires maîtrisent sur le bout des doigts l’ensemble des recherches commerciales et ouvertes mondiales, et non-anglophones. Cela signifie qu’ils sont capables d’évaluer une proposition de subvention par rapport aux dernières publications des revues académiques anglophones, mais qu’ils sont beaucoup moins aptes à reconnaître qu’une proposition en cours d’examen est un duplicata exact de la thèse d’un étudiant chinois datée d’il y a quatre ans, ou qu’une demande pour des heures d’analyse via un superordinateur a déjà été réalisée par quelqu’un d’autre et publié sur GitHub l’année dernière, en déboursant seulement 15 dollars de service sur un cloud, celui d’Amazon ou de Google par exemple. 

Lorsque je me suis penché sur toutes ces limites et sur la manière dont la NSF les aborde, un porte-parole a d’abord promis une réponse rapide (d’ici la fin de la journée) une semaine après ma demande, puis celle-ci a été reportée, et on m’a suggéré que la majorité des réponses à mes interrogations étaient traitées dans le Merit Review Report de l’agence (qui pourrait se traduire par Rapport d’examen du mérite), réalisé en 2016. Pourtant, quand j’ai fait remarquer que mes questions ne semblaient pas être abordées dans ce rapport ou dans le Guide des politiques et procédures de proposition et d’attribution, le porte-parole n’a pas donné suite. Trois semaines plus tard, l’agence ne m’a toujours pas recontacté, ni n’a donné suite à ma demande de suivi. Ce qui est plutôt inhabituel, étant donné les réponses détaillées fournies par cette même agence à d’autres requêtes. Cela suggère qu’il s’agit d’un sujet sensible, auquel l’agence n’a pas de réponse appropriée.

Étrangement, le rapport que l’agence m’a fourni pour toute réponse, note que la NSF maintient une base de données électronique centrale de tous les évaluateurs éligibles, avec des informations détaillées à leur sujet et les pistes qui leur sont allouées. Ainsi savoir combien d’examinateurs proviennent du monde commercial, de la recherche bénévole, non-commerciale et/ou non-académique, et exerçant dans des pays comme la Chine, n’aurait pas dû demander plus de quelques clics. A cette remarque, l’agence n’a pas non plus répondu au bout de trois semaines, il est donc tout simplement impossible d’avoir accès à ces chiffres.

Ces questions sont loin d’être oiseuses et futiles. Il est critique de savoir comment les organismes subventionnaires évoluent afin de gérer au mieux les ressources qui leur sont confiées, alors que de plus en plus de recherches pertinentes se déroulent en dehors du milieu universitaire. L’expertise des examinateurs issus des rangs académiques est, elle aussi, une question critique qui nécessitera de la reconnaissance, de l’autoréflexion et des efforts considérables afin d’être résolue. L’ère du Big Data bouleverse non-seulement l’industrie, mais aussi l’équilibre traditionnel entre recherche appliquée et recherche fondamentale, et sur le rôle que joue le milieu universitaire dans l’avancement de la recherche. Comme les démarches basées sur les données influent dans un nombre de plus en plus important de domaines, la résolution de ces problèmes est de plus en plus urgente.

Enfin de compte, la question qui importe est de savoir si les organismes subventionnaires sont capables d’évoluer dans notre monde en pleine mutation, ou si l’ère du Big Data marginalisera au contraire les structures traditionnelles et leur manière de fonctionner, au profit d’une nouvelle approche dans le traitement des données.

 

Vous avez aimé cet article ? Likez Forbes sur Facebook

Newsletter quotidienne Forbes

Recevez chaque matin l’essentiel de l’actualité business et entrepreneuriat.

Abonnez-vous au magazine papier

et découvrez chaque trimestre :

1 an, 4 numéros : 30 € TTC au lieu de 36 € TTC