Radjaïdjah Blog

Mot-clé - opendata

Fil des billets - Fil des commentaires

mardi 25 août 2015

10 raisons de zapper Windows 10

Alors que c'est le 20e anniversaire de Windows 95, le temps des inquiétudes pour la vie privée dues à la présence d'un GUID (Globally Unique IDentifier) dans les documents produits par Microsoft Word est loin dernière nous.

La dernière version du système d'exploitation de Microsoft, Windows 10, est gratuitement téléchargeable sur le site de Microsoft pour les utilisateurs licenciés des versions récentes. L'entreprise a même sorti une série de 10 petites vidéos intitulée 10 raisons de passer à Windows 10 (10 reasons to upgrade to Windows 10). Ces raisons sont : Windows Store, Continuum, Music and More, Windows Hello, Security, It's Familiar, Cortana, Microsoft Edge, Xbox, Multi-doing.

Derrière ce strass et paillettes de fonctionnalités, la réalité est plus sombre, puisque Windows 10 atteint des sommets de non-respect de la vie privée. Voici 10 bonnes raisons de ne pas adopter Windows 10.

Windows 10

1. La déclaration de confidentialité est claire.

Voici un extrait de la déclaration de confidentialité (version américaine : ''privacy statement'', cf aussi cet article de Numerama) :

Les données que nous recueillons dépendent des services et des fonctionnalités que vous utilisez, et comprennent ce qui suit.

Nom et données de contact. Nous recueillons votre prénom et votre nom de famille, votre adresse email, votre adresse postale, votre numéro de téléphone, et d'autres données de contact similaires.

Identifiants. Nous recueillons les mots de passe, les indices de mot de passe, et des informations de sécurité similaires utilisées pour votre authentification et l'accès à votre compte.

Données démographiques. Nous recueillons des données vous concernant telles que votre âge, votre sexe, votre pays et votre langue préférée.

Centres d'intérêt et favoris. Nous recueillons des données sur vos centres d'intérêt et vos favoris, comme les équipes que vous suivez dans une appli de sport, les stocks que vous suivez dans une appli financière, ou vos villes préférées que vous ajoutez à une appli de météo. En plus de ceux que vous avez explicitement fournis, vos centres d'intérêt et vos favoris peuvent également être devinés ou dérivés d'autres données que nous recueillons.

Données de paiement. Nous recueillons les données nécessaires au traitement de votre paiement si vous faites des achats, comme le numéro de votre moyen de paiement (comme un numéro de carte de crédit), et le code de sécurité associé à votre moyen de paiement.

Données d'utilisation. Nous recueillons des données sur votre manière d'interagir avec nos services. Cela comprend des données telles que les fonctionnalités que vous utilisez, les articles que vous achetez, les pages web que vous consultez, et les termes de recherche que vous entrez. Cela comprend également des données concernant votre appareil, notamment l'adresse IP, les identifiants de l'appareil, les paramètres de région et de langue, et des données concernant le réseau, le système d'exploitation, le navigateur et d'autres logiciels que vous utilisez pour vous connecter aux services. Et cela comprend également des données concernant les performances des services et tout problème rencontré avec ces services.

Contacts et relations. Nous recueillons des données concernant vos contacts et vos relations si vous utilisez un service Microsoft pour gérer vos contacts, ou pour communiquer ou interagir avec d'autres personnes et organisations.

Données de localisation. Nous recueillons des données concernant votre localisation, qui peuvent être soit précises soit imprécises. Les données de localisation précises peuvent être des données du Système de positionnement global (GPS), ainsi que des données identifiant des antennes-relais à proximité et des bornes Wi-Fi, que nous recueillons lorsque vous activez les services et fonctionnalités basés sur la localisation. Les données de localisation imprécises comprennent, par exemple, une localisation dérivée de votre adresse IP ou des données qui indiquent avec moins de précision où vous vous trouvez, comme avec une ville ou un code postal.

Contenu. Nous recueillons le contenu de vos fichiers et de vos communications au besoin pour vous fournir les services que vous utilisez. Cela comprend : le contenu de vos documents, photos, musiques ou vidéos que vous téléchargez sur un service Microsoft tel que OneDrive. Cela comprend également le contenu des communications que vous envoyez ou recevez en utilisant les services Microsoft, comme :

* la ligne d'objet et le corps d'un email,
* le texte ou autre contenu d'un message instantané,
* l'enregistrement audio et vidéo d'un message vidéo, et
* l'enregistrement audio et la transcription d'un message vocal que vous recevez ou d'un message texte que vous dictez.

En outre, lorsque vous nous contactez, pour une assistance clients par exemple, les conversations téléphoniques ou les sessions de discussion avec nos représentants sont susceptibles d'être surveillées et enregistrées. Si vous entrez dans nos magasins, votre image peut être saisie par nos caméras de sécurité.

2. Par défaut, Windows 10 ne respecte pas la vie privée.

Par défaut (configuration définie lors d'une installation express), la configuration de Windows 10 donne un accès quasi-illimité à vos données à Microsoft.

Par exemple, la synchronisation des données (data syncing) envoie l'historique de navigation,les favoris, les sites ouverts, ainsi que les mots de passe des sites et des réseaux wi-fi, sur les serveurs de Microsoft.

Autre exemple, le logiciel gérant les réseaux sans fil, Wi-Fi Sense, demande par défaut à partager l'accès aux réseaux wi-fi connus avec tous les contacts. Cela dit, Microsoft a pensé à un moyen de protéger un réseau afin d'éviter cela : inclure la chaine "_optout" dans le SSID (ce qui se complique quand on apprend que la façon de ne pas être indexé par les voitures Google scannant les réseaux wi-fi est d'avoir un SSID finissant par la chaine "_nomap").

Il a été beaucoup reproché à Microsoft que ces fonctionnalités soient activées par défaut et non pas activables explicitement (par opt-in). La doctrine sous-jacente se résume ainsi : concernant la transmission de données personnelles, qui ne dit mot consent.

De nombreux sites ont explicité les nombreuses étapes à parcourir pour désactiver (opt-out) les différentes fonctionnalités affectant la vie privée. Cependant...

3. Même après configuration, Windows 10 ne respecte pas la vie privée.

Comme l'explique Swati Khandelwal en vertu d'une analyse de Ars Technica, l'assistante Cortana et le moteur de recherche Bing communiquent des informations privées à la maison-mère Microsoft même lorsqu'ils sont instruits de ne pas le faire.

4. Le consommateur devient le produit.

Windows 10 montre que Microsoft s'est mis à la politique de Google ou de Facebook : proposer des produits gratuits à l'utilisateur, en échange de leurs données personnelles.

Et comme le dit l'adage : si c'est gratuit, vous n'êtes pas le consommateur, mais le produit (voir aussi cette présentation).

5. C'est un logiciel propriétaire.

Windows 10 est un logiciel privateur, dans le sens qu'il ne permet pas d'exercer simultanément les quatre libertés logicielles que sont l'exécution du logiciel pour tout type d'utilisation, l'étude de son code source (et donc l'accès à ce code source), la distribution de copies, ainsi que la modification et donc l'amélioration du code source.

6. Il y a de meilleurs choix.

Les distributions Linux grand public comme Ubuntu ou Mint sont techniquement meilleures que Windows 10. Comme le relève Korben, une parodie de la série microsoftienne a été réalisée : 10 bonnes raisons de passer à Ubuntu 15.04.

7. Microsoft semble partenaire du gouvernement US.

Il y a 16 ans, la découverte d'une clef publique nommée _NSAKEY dans une version de Windows publiée par erreur avec des symboles de debugging ont alimenté bien des spéculations concernant une éventuelle possibilité pour la NSA de distribuer des patchs authentifiés (i.e. munis d'une signature électronique validée par le système Windows), même si Bruce Schneier n'y croyait pas à l'époque.

Cette découverte venait en écho des discours du secrétaire américain de la défense William Cohen qui déclarait début 1999 : Je suis persuadé que Microsoft comprend le lien crucial qui existe entre notre sécurité nationale et la prospérité de notre pays. (I believe that Microsoft does understand the crucial connection between our national security and our national prosperity). Mais bon, hors contexte, cette phrase ne veut pas dire grand chose.

8. Windows est vulnérable aux virus et autres malwares.

Avec diverses attaques en provenance des gouvernements américain (Regin, Stuxnet, Flame), chinois (GhostNet), russe (Red October, Turla (ciblant aussi Linux)), les utilisateurs de Windows sont des cibles privilégiées.

Ce n'est pas The Equation Group (NSA) qui dira le contraire. Utiliser un autre système d'exploitation permet d'atténuer ce type d'attaques.

9. C'est un outil d'espionnage industriel.

L'utilisation de Windows 10 au sein d'une entreprise risque de compromettre ses secrets industriels. Une société a donc intéret à réfléchir si le fait de bénéficier de la cosmétique de Windows 10 compense la divulgation à Microsoft de ses collaborateurs, accomplissements, projets, contrats, partenaires, échéances, négociations, etc.

10. Windows 10 peut compromettre un État.

En Russie, note Silicon Angle, des voix s'élèvent contre toute utilisation officielle de Windows 10 : le député Nikolai Levichev a ainsi écrit une lettre au premier ministre Dmitri Medvedev dans laquelle il souligne la possibilité pour Microsoft d'accéder aux mots de passe, contacts, emails, locations, et autres données des utilisateurs, avec un transfert potentiel des données traitées à des agences gouvernementales américaines, raison pour laquelle il souhaite bannir toute utilisation institutionnelle de Windows 10. Cet appel fait suite à une requête du député communiste Vadim Solovyov au procureur général, ainsi qu'à une plainte du cabinet d'avocat Bubnov & Associés auprès du même procureur, les deux demandes soulignant l'aspect illégal de l'accès aux données des citoyens russes par Microsoft.

Il est difficile de décrire exactement les conséquences de l'utilisation de Windows 10 par un État ou une administration telle que la France. L'utilisation au niveau gouvernemental de ce système d'exploitation octroierait à Microsoft l'accès à un stock gigantesque de données nationales, fiscales, et médicales.

Une bonne raison d'adopter Windows 10 : l'illégalité

S'il s'avère que Windows 10 contrevient à la directive 95/46/CE du Parlement européen et du Conseil, du 24 octobre 1995, relative à la protection des personnes physiques à l'égard du traitement des données à caractère personnel et à la libre circulation de ces données, alors vous pouvez porter plainte contre Microsoft et gagner un peu d'argent. Reste à voir comment les juristes interpreteront l'acceptation de la déclaration de confidentialité.

Conclusion

Si vous n'avez rien à faire de votre vie privée ni de celle de vos amis, passez à Windows 10, sinon, ne le faites pas.

lundi 2 février 2015

Lift 2015

This week will take place the Lift15 conference in Geneva (see also last year's entry: Lift14).

Selected talks:

Frederic Jacobs - The internet is insecure. Our phones are insecure. Pretty much anything we use to communicate is, after all, insecure, to some degree. And every time engineers try to make things more secure, they get amazingly complex and hard to use rather soon. But there are exceptions, and some of the most important such exceptions of the last years are TextSecure, Signal and RedPhone, mobile apps for free secure phone calls and text messages - all developed by Frederic and the team around him. After a huge wave of media attention and the recommendation of his apps by Edward Snowden himself, Frederic is currently working on his next big thing.

Stefan Thomas - Stefan Thomas wants to live in a world where currency moves as frictionlessly as information. As CTO of Ripple Labs, backed by Andreessen Horowitz and Google Venture, Stefan Thomas is helping to build an Internet protocol that does just that. Prior to Ripple Labs, he developed vast experience in digital currencies, being both the founder of, WeUseCoins.com, the largest website for novice Bitcoin users,and the creator of BitcoinJS, a software package used by a wide range of Bitcoin businesses all over the world. Now, at Ripple Labs, his overarching motivation is to weave a global value web by making it easy for developers - from individual entrepreneurs to financial institutions - to build extremely efficient money transfer systems using the Ripple protocol, and, in the end, a world in which exchanging value is as frictionless, free and fast as exchanging information.

Selected workshops:

Mapping the Most Powerful Companies in the World with Open Data - Company information is often not available and when it is, it is buried under hard-to-use websites and PDFs. Fortunately, the work of the open data and transparency community has brought a tide of change. OpenCorporates is the world’s largest open database of companies. We have information on over 70 million companies in 80 jurisdictions worldwide. With a million data points added every week, we have a great opportunity to use this open data to map corporate networks. We have launched a tool, aptly named Octopus, to allow crowdsourcing of corporate networks. Already, OpenOil has mapped the incredibly complex network of BP and Global Witness, TED Prize winner have used it to investigate Anonymous Companies. The results are surprising.

Crowdfunding Science - Everybody loves new science and technology. But why can only scientists and engineers be part of the fun of discovering or inventing new stuff? Because science is difficult, dangerous and expensive. Or is it really? Could crowdfunding be a new way of supporting exceptional people who have an idea and need some money to test it? Science and innovation do not always require big investments. They require solutions and people who communicate them to society. Crowdfunding Science will give you the opportunity to explore and design a platform to support future citizen driven discoveries.

Designing Alternative Currency Systems: How, for What Purpose and How to set the Rules? - A short round table discussion with examples of global, local and crypto-backed alternative currency systems followed by the opportunity to design your own for-purpose currency. It is strongly recommended that you look into the history of money before you attend the session by watching at least the 7 minute video “The essence of money".

New techniques in science storytelling - Ever wonder how storytelling can be applied to “non-narrative” concepts, especially those of technical or scientific nature? Join us for a special Masterclass that reveals novel narrative techniques in science communication, from dark matter to climate change, and even the scientific concept of emergence.

See you there!

lundi 16 septembre 2013

Open Knowledge conference

The open knowledge conference 2013 (OKcon) holds from Monday to Wednesday in Geneva.

A lot of openness in the covered topics:

vendredi 1 février 2013

Wiki Anim

Au fur et à mesure qu'ils évoluent, beaucoup d'animateurs de colos se constituent des carnets d'animation.

Souvent au bout de quelques années ça devient assez chaotique, et même pour les gens bien organisés il est difficile de s'y retrouver.

Il était donc logique de créer wikianim, un wiki dédié aux activités d'animation, en 2011.

Cela devait permettre de constituer une base de données d'animations, en ligne et ouverte, où les contributeurs pouvaient proposer leurs thèmes, activités, variantes, etc. Les fonctions de recherches par croisement de catégories (âge, environnement, thème...) auraient facilité la création de listes de types d'activités très spécifiques.

Mais en fait, il existait déjà un wiki consacré indirectement à l'animation : scoutwiki, un wiki sur le scoutisme.

Donc après quelques réflexions, wikianim est maintenant une simple redirection vers le portail animation de scoutopédia / scoutwiki, avec au programme : jeux, spiritualité (!), chants, contes, veillées...

Et quelques contributions, évidemment.

mercredi 22 août 2012

Amphithéâtre planétaire

L'éducation supérieure était un des sujets ayant donné lieu à de nombreuses controverses au GIMUN. Comment le e-learning, c'est-à-dire, en substance, l'utilisation d'internet pour l'enseignement, peut-il rendre service à l'éducation supérieure ? Une réponse est apportée par l'israélienne Daphne Koller (TED talks ici et , dans le thème "radical openness"), qui combine deux concepts :

  • "education flip" : au lieu d'avoir un temps passif en classe pour les leçons et un temps actif hors classe pour les exercices et recherches, le temps passif est transféré hors classe grâce au e-learning (leçon en ligne) alors que la classe est consacrée au temps actif, des séances de questions et d'échanges. Cela s'accompagne d'une revalorisation du rôle du professeur.
  • "freemium" : les cours sont en accès libre et gratuit, mais les diplômes sont payants, à un prix plutôt modique.

Les États-Unis ont pris une certaine avance dans le domaine de l'éducation en ligne, avec l'émergence des MOOC (massive online open classroom). La motivation des professeurs à construire des cours stimulants et clairs est probablement démultipliée avec la perspective de voirs ceux-ci consultés par des dizaines de milliers de personnes. Pour l'éducation élémentaire, il y a déjà la Khan Academy, une initiative personnelle et privée. Pour l'éducation supérieure, on peut relever Udacity et le MIT opencourseware. En France, le Collège de France propose égalements des cours en ligne.

Les visiteurs intéressés par le sujet pourront également lire cet article du Monde (addition, décembre 2012 : ou celui-là).

Une autre conférence TED à voir sur l'éducation : Ken Robinson.

lundi 9 juillet 2012

RMLL 2012

Cette semaine ont lieu à Genève les rencontres mondiales du logiciel libre (RMLL), avec plus de 250 conférences, ateliers et tables rondes.

À signaler par exemple :

et bien d'autres... cf le programme complet. Il est également possible de s'inscrire comme bénévole pour aider au bon déroulement des rencontres ou de montrer une présentation éclair de cinq minutes (lightning talk).

lundi 7 mai 2012

Open data footballistique

L'open data surgit parfois dans des domaines plutôt inattendus, comme le football.

Des magazines tels que FourFourTwo (The Thinking Fan's Football Website) suggèrent de construire des analyses sur la base de données recueillies au cours d'un ou plusieurs matchs, voire plusieures saisons, au sein d'une zone de statistiques. Des sites comme Footytube offrent des APIs certes encore rudimentaires mais néanmoins prometteuses.

Evidemment on peut faire dire aux chiffres n'importe quoi, en politique, heureusement cela ne risque pas d'arriver dans les univers aussi teintés d'objectivité et de bonne foi que ceux des débats sportifs.

Alors, tout en gardant en vue que corrélation n'implique pas causalité, on peut se demander si les métriques de performance sauront apporter des bases saines aux analyses footballistiques, sachant que dans ce domaine il y a ce qu'on voit, et ce qu'on ne voit pas. Un article des excellents Cahiers du Football intitulé Passer aux stats supérieures apporte peut-être des premiers éléments de réponse.

mardi 6 mars 2012

Métrique politique

À l'aune de votations en Suisse et d'élections présidentielles en France, Internet vient aider les électeurs qui ne savent pas exactement qui propose quoi et voudraient en savoir plus.

En Suisse, smartvote construit une métrique politique et vous indique de quel parti vous êtes le plus proche sur la base de réponses à un questionnaire idéologique. Lors de la réunion makeopendata, quelqu'un avait ainsi présenté les politiciens qui semblent en marge de leur propre parti. Au delà de l'automatisation des votes, les lecteurs de ce blog sauront faire preuve d'esprit critique et se prévaloir contre les comportements trop mécaniques pouvant émaner des balbutiements de l'utilisation de ce type d'outil, tout en sachant apprécier ses avantages.

En France, voxe compare les programmes des candidats sur les thématiques de votre choix, de façon neutre.

Internet a également de permis de financer des campagnes électorales, comme ce fut le cas pour le président américain Barack Obama en 2008.

vendredi 16 décembre 2011

Les bons plans du métro parisien

L'opendata, c'est bien joli, mais à quoi ça sert ? Une illustration récente est rapportée par Slate : la compagnie CheckMyMetro utilisait le plan officiel de la RATP dans son application iPhone. Cela n'a pas plu à la Régie, qui dans une attitude d'ouverture que l'on est en droit d'attendre d'un service public, a porté cette affaire devant la justice en exigeant le retrait de l'application du marché, au motif que le dessin du plan était déposé auprès de l'institut national de propriété industrielle (INPI). LA RATP a (logiquement) gagné, et a refusé depuis de rendre son plan libre de droit.

CheckMyMetro, qui voulait continuer à proposer son application, n'avait pas d'autre choix que de la baser non sur le plan de la RATP, mais sur un plan alternatif, qui fournirait des informations tout aussi pertinentes (voire plus) sans pour autant qu'il ressemble au plan officiel afin d'éviter une plainte pour contrefaçon. La société a donc créé un concours dont l'objet était l'établissement d'un tel plan alternatif (une forme de crowdsourcing).

Co-médaille d'or, le plan de Jérome Laval, dont est extraite l'image ci-dessous, quantifie les directions selon des multiples de 45°.

Extrait du plan du métro parisien, par Jérôme Laval ("plan d'or")

Médaille d'argent, le plan de "nohjan" (sources, SVG), place les stations selon leur position géographique précise, comme l'explique son auteur, entre autres détails.

Bilan, l'adage "si vous n'ouvrez pas vos données, quelqu'un d'autre le fera" s'applique, des beaux plans ont été créés, et la RATP est restée à quai.

Mise à jour (août 2012) : la RATP a finalement rendu son plan accessible gratuitement. Ne manque plus que la mise à disposition des horaires des passages des métros en station en temps réel et le métro parisien sera rentré dans l'ère de l'opendata.

lundi 12 décembre 2011

Impôts et réforme fiscale

Dans un monde idéal, nous devrions être contents de payer des impôts. Les impôts sont l'incarnation d'une politique d'intérêt général dans une société. Seulement voilà, en France, pour beaucoup, le système d'imposition est peu réjouissant. Pourquoi ? Hé bien, entre autres pour les raisons suivantes :

  1. Le code fiscal (cf son sommaire) est incompréhensible, et son déchiffrage complique considérablement la vie des citoyens, même dans les cas les plus simples.
  2. Du fait des complexes couches d'abattements, exceptions, réductions, et autres dérogations, les contribuables les plus aisés, appuyés par des conseillers fiscaux (dont l'existence même de la profession est assez révélatrice), payent concrètement moins d'impôts que les plus démunis[1], créant chez ces derniers un sentiment d'injustice face à ce système en pratique dégressif (et même... en théorie, avec les barèmes actuels)[2].
  3. Un autre sentiment d'injustice provient d'inégalités au regard de certains traitements, par exemple les différentes taxations sur les revenus du travail et du capital.
  4. Le gouvernement est assez opaque sur son fonctionnement (constitutions de caisses, de "cagnottes", de fonds secrets, communication peu claire des budgets), ce qui jette le doute sur la pertinence de l'utilisation des deniers publics.
  5. Le gouvernement réussit souvent à gaspiller/dilapider de l'argent public, et en outre certains élus sont adeptes des dépenses somptuaires, semant l'idée que les élus vampirisent l'argent des contribuables à leur seul bénéfice.

Rap-tout

Les deux derniers points cités concernent la transparence, la probité, et l'intelligence gouvernementales, certes un vaste programme. Toutefois, cette entrée se penche sur les trois premiers, qui sont focalisés sur le système fiscal lui-même. La perception généralisée d'un système illisible et inéquitable est certainement néfaste à la cohésion sociale, et c'est dans un certain contexte de défiance contemporaine que trois économistes, Camille Landais, Thomas Piketty, et Emmanuel Saez ont écrit un petit livre, "Pour une révolution fiscale", dont le but est double[3] :

  1. descriptif - présenter le système fiscal actuel et identifier ses faiblesses (en justifiant parfois pourquoi elles existent),
  2. prescriptif - proposer une réforme qui tente de remédier à ces défauts.

En très très résumé, les auteurs montrent qu'au-delà de la complexité du système, le taux d'imposition global est progressif pour les classes populaires et les classes moyennes, puis devient régressif pour les classes aisées. Face à ce constat, ils proposent alors une simplification drastique du système associé à un rééquilibrage des taux d'imposition, tout en laissant le taux moyen de prélèvements obligatoires inchangé. Parmi les mesures proposées, signalons pèle-mêle :

  • l'individualisation de l'impôt avec simplification des règles de quotient familial
  • la fusion de l'impôt sur le revenu des personnes physiques (IRPP) et de la contribution sociale généralisée (CSG) en un unique impôt progressif, prélevable à la source
  • la création d'une cotisation patronale généralisée
  • la suppression d'un certain nombre de niches fiscales, dont le bouclier fiscal

Idéalement, notent les auteurs, la question des impôts est en effet tout sauf technique : il s’agit d’une question éminemment politique et philosophique.

Le livre Landais-Piketty-Saez est en fait la partie émergée de l'iceberg d'un logiciel que les auteurs ont développé, un simulateur de système fiscal, associé à un site internet présentant leur projet. Le logiciel, combiné avec les agrégats statistiques fiscaux nationaux de ces dernières années, sous-tend l'ensemble de l'étude. Dès lors, il est appréciable que ces éléments (programmes + données) soient disponibles sur ledit site.

Pourquoi est-ce important ? Parce que le fait que le code source du logiciel et les données fiscales utilisées soient accessibles implique que les résultats des simulations peuvent être reproduits indépendamment[4]. Cette reproductibilité assure l'aspect réel des résultats présentés, dont chacun peut alors vérifier qu'ils ne tombent pas du ciel - c'est le principe de la démarche scientifique.

Les auteurs insistent sur la primauté de leur démarche, et de leurs résultats. Ils notent que ce type de simulateur n’était jusqu’ici disponible que dans les ministères des Finances et dans certains pays au sein des Parlements (comme aux États-Unis, avec le Congressional Budget Office). En France, ni l’Assemblée nationale ni le Sénat ne disposent de ce type d’outil, et les députés doivent s’adresser à Bercy pour obtenir un chiffrage à chaque fois qu’un nouvel amendement fiscal ou budgétaire est proposé. Cela limite singulièrement la capacité d’initiative et de contrôle du pouvoir législatif, et signe la domination en France du pouvoir exécutif. À titre de vérification, il serait intéressant de voir à quel point les simulations du programme des auteurs concordent avec celles de Bercy. Cela dit, en vertu d'une transparence toujours plus exigible, il est étonnant que cet outil gouvernemental soit à ce point peu diffusé, et qu'un tel service émane d'une initiative provenant du milieu universitaire.

Relevons pour finir que ce projet s'inscrit dans la logique de l'utilisation d'internet au service de la politique, et de l'opendata.

Notes

[1] Un exemple au hasard, un montage subtil pour payer moins de droits de succession basé sur la connaissance de la fiscalité néerlandaise. Ce n'est pas un très bon exemple puisque basé sur des lois extra-nationales, mais ça donne une idée des procédures à connaître et savoir appliquer.

[2] Dans l'autre sens, certains contribuables ultra-libéraux considèrent que l'impôt est un racket gouvernemental, et verront en la fraude ou l'évasion fiscale un impératif moral.

[3] Parfois le texte laisse transparaître un peu de is-ought mais dans l'ensemble la distinction entre ces deux facettes est assez claire.

[4] Il y a néanmoins un inconvénient, de taille : il faut disposer du logiciel populaire mais non-libre (et payant, et cher) Stata, ce qui signifie qu'en pratique une proportion infime de gens est à même d'étudier le logiciel, le site internet n'étant qu'une interface permettant d'exploiter seulement quelques-unes de ses possibilités.

vendredi 28 octobre 2011

The future of science

This Wednesday, particle physicist Lisa Randall was invited on Jon Stewart's Daily Show whose topic was... science, its facets and its effects. To observe how science is perceived by some people (skip directly to 5:20) could be somehow depressing, but at the same time it is refreshing because it causes a lot of us scientists to leave for a few seconds our ivory towers (or our cardboard ones in France) where we feel clever and indispensable to humanity.

Nevertheless, this entry is rather about the ongoing shift in the way science is done and presented. Indeed, it is hard to imagine that so far, mainstream science has been hardly affected by the advent of the internet (although most publications are now available online). To put it a bit provocatively, science undergoes a long tradition of inertia and intrinsic resistance to change. And in today's world, this appears not only as paradoxical, since scientists are supposed to be ahead of their times, but also as quite suboptimal.

But this is changing. Is this evolution being documented? It was good news to be informed (through an e-mail apparently sent with alpine, which is, so to say, the icing on the cake) that Michael Nielsen, co-author with Isaac Chuang of Quantum computation and quantum information, has published a new book on open science, called Reinventing Discovery: The New Era of Networked Science. It's unfortunate he couldn't entitle the book A new kind of science because that's already taken.

A few insights of what the book (which I didn't read -yet) is about can be found in this essay and in this TEDx talk. It seems that Michael Nielsen's aim is not to elaborate big theories about the beauty of openness, but rather to illustrate his point that open science is both important and ineluctable, with amusing or thought-provoking concrete cases of "open" experiments (e.g. arXiv, GenBank, or the journal of visualized experiments), including failures (e.g. online comments sites). A nice touch is that Michael Nielsen puts his brain where his pen is since he's working on "massively collaborative mathematics" projects like Polymath.

In particular, an important issue concerns the ways of discussing experiments and disclosing the results to peers. Traditionally this is done through expensive peer-reviewed journals, but of course their legitimacy has been questioned. Today, serious scientific discussions are being held in more and more informal ways, e.g. via weblogs and wikis. In the long term, it is likely that such journals won't be needed at all anymore (think of the majors in the music industry). Michael Nielsen prophetizes that future publishers will rather be technology-driven companies.

All in all, the future of science is more networked and more open. Let's be prepared for it, and better, let's be part of it.

Addition: Michael Nielsen TED talk on open science, November 2011

A new way of making science does not triumph by convincing its opponents and making them see the light, but rather because its opponents eventually die, and a new generation grows up that is familiar with it.

Max Planck (almost)

mardi 18 octobre 2011

Le web sémantique

Comme annoncé précédemment, voilà une mini-introduction au web sémantique.

Le web sémantique est une belle idée dont l'essence consiste à faire du web un système de connaissances simple à traiter pour les ordinateurs. C'est, dans l'esprit du Word Wide Web Consortium (W3C), le web 2.0. Le moyen : adjoindre aux pages web écrites en langues humaines tout un système de métadonnées, invisible pour l'utilisateur mais compréhensibles par les ordinateurs. Pour reprendre une expression de Pierre Lévy, une page de web sémantique a deux facettes, la face humaine et la face sémantique, qui forment l'avers et le revers d'une même médaille.

Mais comment faire, en pratique ? Comment passer concrètement d'un web de documents à un web de données ?

Lors de makeopendata, Philippe Cudré-Mauroux, professeur à l'université de Fribourg et membre d'eGovTec, a donné une présentation intitulée "Linked Open Data in the Cloud" (dont les slides étaient à peu près ceux-ci). Dans l'esprit de la réunion, il a commencé par rappeler que le développement de l'open data était assez urgent, en vertu de la nécessité d'une part de davantage de transparence gouvernementale, d'autre part de solides infrastructures de données.

Puis il a esquissé une réponse aux questions ci-dessus : la manière la plus prometteuse d'implémenter le web sémantique est basée sur le concept de Linked Open Data, proposé il y a cinq ans par Tim Berners-Lee, et qui est fondé sur 4 principes :

  1. utiliser des URI (Uniform Resource Identifier, soit des chaînes de caractères qui identifient (et adressent) des ressources sur un réseau) pour identifier les choses
  2. utiliser des URI HTTP pour déréférencer les URI
  3. fournir des informations structurées sur les URI en RDF
  4. inclure des liens pour connecter les URI

Le RDF est une sorte de grammaire informatique très générale, dont les phrases sont des triplets d'URI (sujet, verbe, objet). C'est une grammaire décentralisée, car les listes de triplets qui la forment, les "triples stores", peuvent être publiées n'importe où, dans le cloud. Comme dit Philippe Cudré-Mauroux, ''the great thing about unique identifiers is that there are so many to choose from''. L'incorporation du RDF dans les pages HTML est standardisée sous l'appellation RDFa.

En conséquence, en plus du web lisible par les humains, il existera un "web parallèle", le web sémantique, destiné aux ordinateurs.

Linking Open Data cloud diagram, by Richard Cyganiak and Anja Jentzsch. http://lod-cloud.net/

Pour finir, quelque chose dont Philippe Cudré-Mauroux n'a pas du tout parlé, c'est les microformats et les microdonnées, qui sont des approches moins abstraites et plus pragmatiques du web sémantique.

makeopendata

Il y a trois semaines avait lieu la réunion makeopendata suisse, faisant en particulier la promotion de la publication et de l'exploitation de données gouvernementales.

makeopendata 2011 camp

Avoir des données ouvertes n'est pas un but en soi, les exploiter pour les transformer en messages, voire en services, est bien plus intéressant. Des exemples de ce qu'on peut faire dans ce cadre sont présents sur le site visualizing ou sur l'opendata showroom.

L'Open Data Challenge présente également diverses initiatives d'open data. On note parmi les entrées du concours une idée d'European Union Dashboard incluant Open Spending, un service permettant de visualiser les dépenses gouvernementales.

Où trouve-t-on des données ouvertes ? Hé bien, voir ici par exemple. Les données géographiques sont souvent au format esri.

En France, il existe un service des données publiques à Paris. Les données publiques font partie du patrimoine immatériel de l'État. Au sein du gouvernement il existe une mission "chargée de l'ouverture des données publiques et du développement de la plateforme française Open Data" : Etalab, qui annonce la création d'une plateforme pour décembre 2011. En Suisse, pays nativement allergique aux systèmes trop centralisés, il existe des données ouvertes à différentes échelles régionales : données communales, données cantonales, données fédérales...

L'open data démontre que l'informatique peut venir au service d'une plus grande transparence des politiques publiques. Et c'est quelque chose d'inéluctable, car, si vous n'ouvrez pas vos données, quelqu'un d'autre le fera.