Le développement fulgurant du monde numérique est en grande partie du à la production croissante de données : un article de blog d’IBM estimait en 2013 que 90% des données alors disponibles avaient été produites de 2011 à 2013, et que 2,5 trillions de bytes de données étaient produites chaque jour. Il est donc légitime de se demander, face à cette quantité gargantuesque de data (notons d’ailleurs l’euphémisme que constitue l’expression “big data“), pourquoi l’open data fait tant parler.
La demos-data
Le site de la Commission d’accès aux documents administratifs (CADA) le rappelle : l’idée que l’administration est redevable de son action envers les citoyens remonte aux fondements même de la création de la démocratie en France, et notamment à l’article 15 de la DDHC qui dispose que “la Société a le droit de demander compte à tout Agent public de son administration“. L’open data, le fait pour toute entité d’ouvrir des jeux de données au grand public afin de permettre leur réutilisation, peut ainsi relever de la mission même de l’administration publique. Quel meilleur moyen de demander compte que d’obtenir les données produites ?
Dans cette optique, l’open data public se généralise progressivement et sûrement depuis la DDHC : la loi CADA de 78 proclame justement une liberté d’accès aux documents administratifs, une directive européenne de 2003 harmonise la réutilisation des informations publiques (transposition en 2005) et un décret de 2011 précise que l’open data public doit être gratuit. Plus récemment, la loi Macron de 2015 a ouvert certains monopoles afin d’élargir l’open data, et surtout, la loi pour une République numérique a consacré un principe général d’open data, et ce pendant que parallèlement, la mission Etalab était créée (en 2011) et prenait de l’ampleur. Aujourd’hui, le principe est donc celui de l’open data, et donnée oblige, la plateforme de référence est data.gouv.fr.
Le prix de l’ouverture
Cependant, l’ouverture massive de données n’est pas sans coût : la donnée, malgré son immatérialité, doit bien être stockée physiquement sur un serveur. Avant même cette étape, il est nécessaire d’avoir mis en place les techniques organisationnelles nécessaires à sa production dans un format exploitable, et disposer des logiciels et des équipements de traitement pour ce faire. Des exemples récents montrent ainsi les difficultés de mise en pratique des idéaux de l’open data.
Au niveau de la justice, les noms des parties personnes physiques doivent être retirés (cf. cette recommandation de la CNIL), ce qui requiert soit des algorithmes et des capacités de traitement assez poussés (disponibles pour l’instant uniquement dans le privé), soit beaucoup de temps passé. De même, l’INPI est censé détenir les données d’entreprises collectées par les greffiers, mais ne les a pas encore rendues publiques, faute de moyens adéquats. À l’heure de la startup nation, et alors que la donnée est le cœur de l’intelligence artificielle, n’est-il pas temps de se donner les moyens de nos ambitions, ne pas rester dans l’ombre du développement de l’IA ?
Ce qu'on lit cette semaine
#opendata
#inpi
#libremaispasgratuit
A trois ans de recul sur la fameuse loi Macron, censée donner un sacré coup de libéralisme au train des professions réglementées, petit bilan des conséquences pour l’ouverture des données commerciales des entreprises, jusqu’alors soumises au monopole des greffiers des tribunaux de commerce. En restituant la prérogative de diffuser ces données à l’Institut National de la Propriété Industrielle, la réforme entendait permettre et faciliter leur réutilisation par de nouveaux acteurs, sous de nouvelles formes ; hélas, le retard technique accusé par l’INPI permet en pratique aujourd’hui encore à Infogreffe de maintenir un quasi-monopole de fait (son monopole de droit subsistant par ailleurs en matière de Kbis). Où l’on constate encore une fois que la data sans les moyens de traitement et de présentation adaptés ne vaut de nos jours pas grand-chose, et que l’on ne fera pas l’open data des données publiques sans un minimum de dotations techniques, humaines et financières.
#e-commerce
#taxe
#livraison
#écologie
#pasévidentévident
S’il est vrai qu’en matière de lutte contre le réchauffement climatique, toutes les idées sont bonnes à prendre, il n’est pas nécessairement bon de toutes les mettre en œuvre. Les sénateurs ont ainsi récemment adopté une proposition de loi dont une des dispositions tend à instaurer une nouvelle taxe sur la livraison des biens commandés en ligne, proportionnelle à la distance parcourue entre le dernier point de stockage et l’adresse de destination. Acquittable par les commerçants, l’objectif de cette taxe est d’inciter ces derniers, ainsi que les grosses plateformes d’e-commerce, à construire plus d’entrepôts en France pour rapprocher les produits des consommateurs et ainsi lutter contre la pollution ou encore contre le suremballage. Plusieurs exonérations sont également prévues notamment pour les entreprises ne dépassant pas les 50 millions de chiffre d’affaires ou encore les livraisons réalisées par des moyens de transport ne consommant pas d’énergie fossile. Vous doutez à plusieurs égards ? On ne vous le reprochera pas.
#IA
#deeplearning
#montessorIA
Alors que certains prédisent à l’IA le début d’un hiver, d’autres œuvrent pour qu’elle connaisse un été indien. C’est ce dont il ressort des motivations de ceux qui ont perdu foi dans le deep learning mais pas dans l’intelligence artificielle. Les algorithmes développés avec avec les méthodes de deep learning montrent en effet rapidement leurs limites dès qu’il s’agit d’exécuter des tâches qui sortent du cadre normé dans lequel ils ont été conçus. Alphago n’est pas un joueur d’échec. Certains chercheurs anticipent donc qu’il est nécessaire de s’en départir pour s’étendre à d’autres méthodes de développement d’algorithme pour sauver l’IA et l’engouement qu’elle suscite. C’est ainsi qu’un nombre croissant d’initiatives se tournent vers l’utilisation d’outils pour permettre aux algorithmes d’acquérir un semblant de bon sens, capable de manipuler des éléments factuels et conceptuels. Les résultats sont prometteurs avec parfois, une productivité plus de 300 fois supérieure à celle des algorithmes issus du deep learning. Alors, team deep learning ou team bon sens ?
#techno-éthique
#IA
#Régulation
#boireouconduire
Le besoin est identifié mais la mise en oeuvre est malaisée. A l’heure où Google publie des guidelines à destination de ses employés pour construire des IAs pas trop bancales et que la Commission Européenne vient tout juste de nommer ses 52 experts qui constituent désormais son High Level Expert Group en la matière, il semblerait que la communauté des techno-éthiciens commence à s’accorder sur les grandes valeurs qui devront guider le développement de l’intelligence artificielle et sa régulation : l’impartialité / l’équité (fairness), la vie privée, la transparence/l’interprétabilité ainsi que la responsabilité (accountability). Certains commencent ainsi déjà à auditer leurs propres algorithmes, ou ceux des autres, à l’aune de celles-ci. Seulement, ce dont il ressort des premiers retours d’expérience sur le terrain est que la préservation de certaines des valeurs cardinales précitées nécessite la délaissement d’autres : vous imposez à votre algorithme de déterminer la même proportion d’individus “à fort risque criminel” dans chacun des groupes ethniques ? Vous vous retrouvez avec des taux de faux positifs inégaux. Vous souhaitez rendre votre algorithme transparent ? Vous prenez le risque qu’on puisse utiliser l’information de son fonctionnement pour le tromper. Triste réalité, mais pas surprenante pour autant, car ce n’est là que la manifestation de ce qu’en matière d’Homme, comme de robot, la justice est une affaire de compromis.
#sécuritéintérieure
#programmationmilitaire
#donnéesinternationales
#alloc'estpourunrenseignement
La Direction Générale du Renseignement Intérieure va désormais pouvoir accéder aux données internationales collectées par la Défense et la Direction Générale du Renseignement Extérieur. Il s’agit là d’un ajout majeur de la dernière Loi de programmation militaire, en voie de finalisation, car jusqu’à présent le renseignement intérieur ne pouvait accéder aux échanges d’un individu avec l’étranger que dans des hypothèses très limitées. Il pourra désormais, selon les infractions suspectées, procéder à des vérifications ponctuelles, des surveillances individuelles en bonne et due forme ou encore avoir accès aux données issues des opérations de surveillance internationale parallèles. Les garde-fous n’ont pas été oubliés puisqu’il est prévu que le nombre de surveillances individuelles simultanées sera limité et que la Commission Nationale de Contrôle des Techniques de Renseignement se voit accorder un pouvoir de contrôle accru, a posteriori pour les vérifications ponctuelles, et a priori pour les mesures de surveillance. Parce que les renseignements, eux aussi, ont leur propre CNIL.
#hébergeur
#lcen
#quigarderalesgardes
C’est une histoire qui a tout du vrai feuilleton judiciaire : lorsqu’il y a quelques années, l’hébergeur 1fichier.com voit la Société Générale résilier unilatéralement son contrat de service de paiement en ligne, le laissant par là même dépourvu de son principal financement (les abonnements payants de ses utilisateurs), il ne se doutait sans doute pas que l’affaire le conduirait jusque devant le Ministère de la Culture lui-même. Pourtant, au gré du contentieux, voici qu’un argument de la banque finit par soulever un doute : et si cette dernière s’était tout simplement conformée à des instructions données par les représentants des titulaires de droits d’auteur, réunis au sein d’une commission plus ou moins officiellement présidée par la rue de Valois ? C’est tout l’objet de la fameuse stratégie “Follow the Money”, consistant pour les ayants droit à désigner directement aux prestataires de services de paiement les sites identifiés comme relais de contrefaçons, stratégie sur laquelle 1fichier.com entend désormais faire s’expliquer le Ministère. Il va sans dire en effet qu’une telle politique, si sa finalité peut être défendue, ne saurait en revanche justifier de passer outre, d’une part, le respect du contradictoire, et, d’autre part, le principe de responsabilité limitée des hébergeurs, tel que prévu par la LCEN. On attend avec impatience le prochain épisode.
#copyright
#filtrage
#droitvoisin
#IDpascontent
Nouveau rebondissement au Parlement Européen, après que la commission des affaires juridiques (commission JURI) a validé, dans le cadre du projet de réforme de la directive Droit d’auteur, les très controversées dispositions relatives à l’obligation de filtrage type “ContentID” des contenus mis en ligne par les hébergeurs pour le compte de leurs utilisateurs, ainsi que celles instituant un droit voisin au bénéfice des éditeurs de presse en ligne. Le vote de la commission, issu d’une majorité très fine, sera finalement remis en jeu en séance plénière le 4 juillet (tout un symbole), à la demande de la députée du Parti Pirate allemand Julia Reda, qui avait rappelons-le signé le rapport initial de ce projet de réforme – rapport largement détricoté depuis. Le rejet de ces dispositions par le Parlement pourrait rouvrir la voie à de déjà très longues discussions entre les différentes institutions de l’Union, et retarder d’autant l’achèvement global du Digital Single Market ; d’ici là, ce dossier essentiel pour l’avenir de l’économie d’Internet tel que nous le connaissons continue d’alimenter un débat public qu’on espère aussi riche et animé que celui récemment suscité par le GDPR, autre texte crucial pour la fameuse “société de l’information” européenne.
#cybersécurité
#géopolitique
#soushautetension
On vous en parlait déjà il y a quelques semaines : la recrudescence des campagnes de cyberespionnage initiées depuis la Chine à l’encontre des Etats-Unis se poursuit, et les soupçons se portent toujours plus vers le gouvernement chinois. Si les attaques se concentraient initialement sur la propriété intellectuelle et les secrets d’affaires, elles inquiètent aujourd’hui d’autant plus qu’elles visent des informations militaires, stratégiques et des infrastructures essentielles telles que les satellites et les télécoms. Difficile de deviner si l’enjeu derrière tout ce grabuge se limite, comme il était d’abord indiqué, à des représailles contre les sanctions commerciales imposées par l’Oncle Sam contre l’Empire du Milieu, ou s’il se joue là quelque chose de plus préoccupant – tel que les préparatifs d’une course à l’armement. En toute hypothèse, la situation peut alarmer, et à juste titre rappeler que l’un des grands défis de demain est bel est bien celui de la cybersécurité.