Depuis 2004, Google s’est lancé dans la numérisation de la culture mondiale. A ce jour, plus de 130 millions d’ouvrages uniques ont été numérisés et sont librement* accessibles sur le Web. Un système de reconnaissance optique des caractères permet l’indexation et la recherche de texte à travers tous les livres numérisés. Cette base de données unique au monde est une mine d’or pour l’Observatoire Culturel de l’Université d’Harvard, qui s’est donné pour mission l’étude quantitative de la culture à travers les siècles et les continents.
Une des applications mise au point par les chercheurs d’Harvard en collaboration avec Google permet en une fraction de seconde d’établir la fréquence d’utilisation de n’importe quel mot ou phrase à travers tous les ouvrages publiés à une date donnée. L’application baptisée Books Ngram Viewer est disponible sur le Web et permet à tout un chacun de suivre la tendance des mots et des idées à travers les âges, dans la littérature américaine, anglaise, française, allemande, ou même chinoise.
Par exemple, considérant que la fréquence d’utilisation du mot « France » dans la littérature américaine est une indication de l’intérêt des américains pour notre culture, je me suis amusé à mesurer le niveau d’influence culturel français en Amérique à travers les époques, puis à le comparer à celui de l’Allemagne et de la Chine.
Sans surprise, les références à la France dans les livres américains n’ont cessé de diminué depuis le pic atteint à la fin du siècle des lumières, avec malgré tout un notable regain d’intérêt dans les années 1920 — un « âge d’or » de la culture française et des échanges franco-américains que dépeint avec brio Woody Allen dans « Midnight in Paris » — suivi d’un rebond de moindre importance dans les années 1960, sans doute à travers le cinéma français de l’époque.
Ce qui m’a semblé plus surprenant en revanche, c’est la quasi-inexistence de l’Allemagne jusqu’au début du XXe siècle, puis la symétrie de son évolution par rapport à la France, comme si après une longue divergence, nos deux cultures s’étaient liées d’intérêt pour les américains au cours du siècle dernier, dans le sang de la guerre puis dans l’encre des livres.
Quand à la fréquence des références à la Chine, après une lente progression au cours du siècle dernier, j’ai trouvé intéressant de noter qu’elle surpasse désormais légèrement celle des mots « France » et « Allemagne », depuis le début du nouveau millénaire.
Ngram Viewer offre une source d’inspiration infinie pour relire l’Histoire à la lumière des mots. On y découvre que malgré une constante évolution depuis Cambronne, « merde » n’est vraiment populaire que depuis la fin de la seconde guerre mondiale et que « foutre » a connu un fulgurant pic de popularité dans la littérature française entre 1968 et 1972. Allez savoir pourquoi.Dans les mots des auteurs français, il est aussi encourageant de noter que « amour » a toujours été trois fois plus populaire que « haine », même si depuis le siècle dernier, la « crise » distance désormais largement « l’espoir ».
Les deux chercheurs à l’origine de cette application, Jean-Baptiste Michel (un français, diplômé de Polytechnique avant de rejoindre Harvard) et Erez Lieberman Aiden, présentent avec beaucoup d’humour quelques-unes de leurs trouvailles dans cet enregistrement de TED à Boston en Juillet dernier. Si vous aimez les bons mots…
* En réalité seule une partie des ouvrages numérisés est accessible en version intégrale après que Google ait dû retirer de la publication les livres soumis à droit d’auteur.