Lorsque James Shinn travaillait pour la CIA en tant qu’expert principal de l’Asie de l’Est, il y a plus de dix ans, il rêvait des outils d’un météorologue. Il voulait pouvoir prédire que la probabilité que la Corée du Nord teste un missile d'ici un mois était, par exemple, de 60%. Il est resté un fantasme, dit-il, jusqu'à maintenant.
Shinn et son équipe 14-person à Predata ont développé un logiciel qui décrit numériquement la volatilité politique et le risque. Il aspire de grandes quantités de données à partir de conversations et de commentaires en ligne, les compare avec des modèles passés et crache une probabilité. (Une version du service de Predata est accessible sur le Bloomberg Service professionnel.) Shinn compare son produit à sabermetrics, la stratégie de baseball basée sur des statistiques popularisée par Michael Lewis Moneyball. «En rassemblant soigneusement de nombreuses statistiques sur leurs performances passées aux quatre coins d'Internet, nous prédisons comment un grand nombre de joueurs d'une équipe battront ou lancera à l'avenir», explique Shinn, par analogie.
Predata ne remplace pas tellement les analystes humains, mais leur offre un nouvel outil. Sans que les gens choisissent quoi suivre, le nettoyage des métadonnées a un usage limité. En outre, Shinn fait valoir que si les sociétés d’analyse des risques offrent de plus en plus de clients à des pourcentages numériques, les données sont souvent extraites des ondes. «Il s'agit d'un indice de risque soigneusement calculé et piloté par une machine», déclare Shinn, fondateur et chef de la direction de la société. "Il n'y a pas de scoring arbitraire par un analyste humain."
Chaque jour, Predata surveille les flux Twitter 1,000, les pages 10,000 Wikipedia, les vidéos 50,000 YouTube et plusieurs dizaines de journaux et magazines dans certains pays 200. Il couvre des sujets liés à 300, notamment des informations sur des entreprises individuelles, le débat sur le fait que le Royaume-Uni quitte l'Union européenne et les décisions en matière de taux d'intérêt prises par les banques centrales.
Les données historiques sont primordiales. Par exemple, Predata n’a pas fait de prédiction statistiquement utile pour le 22 de mars. attentats à Bruxelles, en partie parce que la Belgique avait connu peu d’incidents de ce type. Le logiciel nécessite au moins cinq événements précédents pour trouver une corrélation entre les conversations numériques et un acte de terrorisme, selon Shinn. La France, en revanche, avait été témoin d’incidents sur 13 avant les attentats de Paris, le X. 13; la société affirme que son modèle indiquait la probabilité qu'un événement atteigne au moins 61 pour cent par mois. De même, le mois de décembre 27, Predata a annoncé avoir calculé un pourcentage de 68 sur les chances que la Corée du Nord se livre à une activité liée aux armes de destruction massive dans les jours à venir. Près de deux semaines plus tard, en janvier 45, le régime de Kim Jong Un dirigea la nation quatrième essai nucléaire.
Shinn, secrétaire adjoint du département de la Défense des États-Unis pour l'Asie de l'Est après son passage à la CIA, a commencé à développer la technologie en 2014 tout en enseignant à son alma mater de Princeton et en tant que membre du conseil consultatif de Kensho Technologies, un logiciel d'analyse développeur pour la gestion des investissements. Le PDG de Kensho, Daniel Nadler, et Shinn ont expérimenté dans leur temps libre un prototype grossier surveillant les conversations en ligne entre les syndicats en Afrique du Sud, pensant que les données permettaient de mieux comprendre la volatilité du pays. Ils ont constaté que les discussions en anglais et en afrikaans se faisaient dans les deux sens, de même que les pages de Wikipédia des syndicats avant les grèves minières, après quoi les prix de l'or et du platine ont monté en flèche.