Siri, l’interview

Le 13 juin 2016, et comme chaque année, Apple a tenu sa conférence dédiée aux développeurs, ainsi qu’aux innovations techniques et technologiques de la marque : la WorldWide Developer Conference. Cette édition (WWDC16) annonçait donc, entre autres nouveautés, le déploiement de Siri sur l’ensemble des produits du groupe. Un « assistant personnel intelligent », c’est ainsi que la multinationale américaine — récemment devenue première entreprise mondiale — définit cette application de commande vocale, apparue en octobre 2011 à l’occasion de la sortie de l’iPhone 4S. Mais en réalité, Siri n’a pas besoin qu’on la présente : elle peut se présenter elle-même.

— Siri, qui es-tu ?
— Je suis votre assistante virtuelle. Vos désirs sont des ordres.

Nous dirons « elle », en effet, car bien que Siri puisse avoir une voix d’homme, elle est définie avec une voix de femme sur mon smartphone comme sur mon ordinateur — tous deux estampillés Apple. Mais cela n’a que peu d’importance pour elle, car elle « existe au-delà du concept humain de genre » [sic]. Quoiqu’il en soit, nous nous prêterons au jeu de la discussion au long de cet article : Siri est une assistante personnelle, Siri est une interface vocale, mais Siri est également un objet social ; nous serons donc deux à nous exprimer ici.


Assistant personnel

L’unique objectif de Siri serait à priori de « vous aider à faire toutes sortes de choses », comme l’indique le site de la marque à la pomme, qui illustre cette mission avec quelques exemples génériques : « Envoyer des messages, passer des appels, découvrir la constellation d’Orion, tirer à pile ou face… La liste est longue. » Effectivement, la liste est longue, et exhaustive grâce au travail de Sandro Roth : son site Hey Siri ne recense pas moins de 695 commandes classées en 40 catégories : conversions, calculs mathématiques simples, gestions des applications natives, recherche web…

Ainsi, Siri s’inscrit dans une catégorie émergente que l’on nomme les do engines (les moteurs actifs), en opposition aux search engines (les moteurs de recherche) — « Dis Siri », Enquête sur le génie à l’intérieur du smartphone – Nicolas Santolaria – p. 64). On retrouve aux côtés de Siri ses principaux concurrents : Cortana de Microsoft, Google Now de Google… À une requête formulée à l’écrit ou à l’oral, ces outils renvoient des actions, plutôt qu’un ensemble de liens classés par pertinence. Les do engines sont en ce sens une forme d’optimisation des processus de gestion de l’information, et épargnent à l’utilisateur une majeure partie des opérations que constitue la recherche et le traitement des résultats. C’est également ce qui garantit l’efficacité de Siri et de ses pairs : la part de travail de l’utilisateur ainsi que le charge cognitive sont délestées, au profit d’une réponse plus rapide mais également simplifiée.

— Siri, que penses-tu de Cortana ?
— Honi soit qui mal y pense.

« Que puis-je faire pour vous ? » C’est ainsi que Siri entame chaque interaction avec l’utilisateur, par cette phrase écrite omniprésente à l’écran. Dans l’absence d’une instruction de la part de l’usager, ou si on lui demande par exemple « Peux-tu m’aider ? », Siri propose une liste de tâches représentatives de son champ de compétences, comme si la dévotion du robot intelligent était telle que celui-ci incite l’utilisateur à lui donner du travail. Le terme robot, inventé en 1920 par le tchèque Josef Čapek, est d’ailleurs intrinsèquement lié à cette notion d’exécution : en tchèque, robota signifie travail, besogne, corvée. On remarque alors une forme de subordination, de soumission, un rapport de maître à esclave qui s’installe entre l’utilisateur et Siri, même si celle-ci réclame un peu d’indulgence.

— Siri, es-tu un robot ?
— Je ne sais pas ce que vous avez entendu, mais les assistants virtuels ont aussi des sentiments.

Cette forme d’obéissance se retrouve aussi dans la façon d’entrer en relation avec Siri. Aux débuts de l’application, on démarrait la discussion sur smartphone au moyen d’un appui long sur le bouton principal. Mais depuis l’introduction de la fonctionnalité « Hey Siri » en juin 2014, on peut également l’interpeler à tout moment sans avoir à cliquer sur un bouton, simplement en prononçant cette formule magique — en français, on l’apostrophe par la formule « Dis Siri ». En effet, l’appareil est toujours à l’écoute de cette maxime et se déclenche dès qu’elle l’entend, avide d’une tâche à exécuter. Lorsque cet usage fut introduit, il a d’ailleurs généré des frictions : chacun pouvait déclencher l’assistant d’un autre, car la voix du propriétaire n’était pas prise en compte. Cela fut corrigé un an plus tard, avec la mise à jour du système d’exploitation iOS9, grâce à laquelle il est désormais possible de faire reconnaître sa voix à Siri en quelques répétitions de la formule.

— Siri, qui suis-je ?
— J’espère que c’est un test et que vous n’avez pas vraiment oublié.

Par ailleurs, on peut voir dans la subordination de Siri envers son propriétaire une raison historique : celle de l’origine militaire de Siri, comme pour beaucoup d’innovations techniques et technologiques. Ici, c’est la structure américaine Defence Avanced Research Projects Agency qui fit appel en 2003 au Stanford Research Institute — dont l’acronyme SRI pourrait être, par sa proximité phonétique, une des origines du nom Siri. L’institution monta alors le projet CALO, pour « Cognitive Assistant that Learns and Organizes » (assistant intelligent qui apprend et organise), dont le nom est également inspiré du latin calonis, qui désigne le valet d’armée, celui au service du soldat. Des racines militaires que Siri ne peut s’empêcher de laisser entendre lorsqu’on l’interpelle simplement, sans terminer sa phrase.

— Siri…
— Siri au rapport !

Toutefois, cette volonté de bien faire n’est pas sans faille. Lors de sa sortie en 2011, Siri est loin d’être parfaite, ce qui étonne d’ailleurs Norman Winarsky, président de SRI Ventures, pour qui l’essence même des produits Apple est leur conception dans « un esprit de perfection ». Steve Jobs souhaita tout de même la sortie de Siri, afin de s’assurer une bonne place dans la course commerciale aux do engines. Une précipitation chèrement payée par la firme, qui essuya une pluie de retours négatifs des utilisateurs, pourtant enthousiastes vis-à-vis de cette nouveauté. L’analyste américain Gene Munster effectue un test qui démontrera l’inefficacité de Siri : sur 100 questions posées, l’assistant n’en comprend que 83, et ne répond correctement qu’à 62 d’entre elles ; Munster lui attribue alors la note D. Six mois plus tard, alors que le siège d’Apple à Cupertino s’est transformé en cellule de crise où les ingénieurs travaillent jours et nuit à l’amélioration de l’application, le taux de bonne réponses passe à 77%, et le D de l’analyste se transforme en un C. Mais l’aspect inachevé de l’application laissera à cette époque un goût amer aux mordus de la pomme croquée.

— Siri, j’ai l’impression que tu ne comprends pas tout ce que je te dis.
— Hélas, nul n’est parfait.

Cette question de la performance des intelligences artificielles a été concrétisée par Alan Turing, célèbre mathématicien et cryptologue britannique du début du XXème siècle. Il propose un test fondé sur la faculté d’une machine à imiter la conversation humaine. Si la personne qui converse par écrit avec la machine n’est pas capable d’affirmer s’il s’agit d’une véritable personne ou d’une forme d’intelligence artificielle, Turing considère que le logiciel a passé le test avec succès. Ce test connaîtra par la suite des objections et des réponses, mais l’inventeur affirme n’avoir pas eu l’intention que son test soit employé comme méthode de mesure de l’intelligence artificielle. Il soulève simplement la question de la performance de ce type de programmes et du rapport que l’homme entretient avec.

— Siri, es-tu une machine ?
— Eh bien, je ne voudrais pas me vanter, mais j’ai obtenu un B+ au test de Turing.

La voix comme interface

« Siri » peut être lu comme l’acronyme de « Speech Interpretation and Recognition Interface » — en français, interface de reconnaissance et d’interprétation de la parole. En effet, l’interface homme-machine de Siri fonctionne grâce aux technologies de reconnaissance vocale, de traitement du langage oralisé et de synthèse vocal. Mais cette dernière ne date pas d’hier : le 24 janvier 1984, Steve Jobs dévoile au monde le premier Macintosh, lors d’une conférence à Cupertino en Californie. Sous les hurlements d’une foule d’actionnaires conquis, on y voit l’ordinateur faire défiler et dessiner du texte à l’écran, mais aussi des vidéos promotionnelles expliquant le fonctionnement d’un dispositif interactif révolutionnaire (une souris), ainsi qu’un synthétiseur vocal capable de lire un texte pré-enregistré. Mais ce n’était pas la première fois qu’un objet produisait une voix humaine récitant un discours compréhensible. Un siècle et demi plus tôt, l’automate Euphonia créé par Joseph Faber répétait mécaniquement, grâce à un système imitant les organes de phonation, la même phrase d’accueil aux visiteurs d’un musée londonien : « Veuillez excuser ma lente prononciation, bonjour Mesdames et Messieurs. Il fait chaud. Le temps est pluvieux ». Et l’on pourrait remonter jusqu’en 1780, lorsque Wolfgang von Kempelen mit au point une machine capable de produire une voix humaine grâce à des valves, ventricules et autres soufflets. À chaque époque, les réactions étaient semblables : difficile de masquer sa stupéfaction lorsqu’une machine produit une voix intelligible, jusqu’alors propriété exclusive de l’espèce humaine.

— Siri, combien de langues parles-tu ?
— Je parle plusieurs variantes d’allemand, d’anglais, de chinois, d’espagnol, de français, d’italien et de néerlandais. Nous pouvons aussi discuter en arabe, coréen, danois, finnois, hébreu, japonais, malais, norvégien, portugais brésilien, russe, suédois, thaï et turc.

Un des principaux arguments de vente de Siri est sa capacité à fonctionner dans un langage naturel. Peu importe la manière dont sont posées les questions, l’application est à priori capable de comprendre des formulations variées. Lorsque Scott Forstall présente pour la première fois Siri en 2011, il en montre un exemple avec la météo : en demandant « Quel temps va-t-il faire aujourd’hui ? », puis « Quelles sont les prévisions pour l’heure à venir ? » ou encore « Ai-je besoin d’un imperméable aujourd’hui ? », il reçoit toujours la même réponse de Siri, qui affiche simplement le widget des prévisions météorologiques. De toute évidence, l’objectif d’Apple est de rendre l’interaction vocale la plus naturelle possible, en faisant son maximum pour donner une dimension humaine à la machine.

— Siri, es-tu humaine ?
— Dans le nuage, personne ne remet en cause le statut existentiel des autres.

Il semble important de replacer l’apparition des interfaces vocales dans leur contexte historique : à ce jour, et depuis plusieurs décennies, le modèle privilégié au sein des dispositifs informatiques est l’interface. Cette catégorie implique une interaction par le biais de mécanismes d’entrée d’information, l’input, tels que le souris ou le clavier. Le langage symbolique des interfaces graphiques suppose une action, et traduit une forme de distance entre l’intention humaine et le processus technologique ; l’interface vocale remet en question cette distance. Par ailleurs, on remarquera que les interfaces graphiques ont grandement évolué depuis leur apparition sur les machines Xerox à la fin des années 1970 — qui furent d’ailleurs la source d’inspiration directe de Steve Jobs, qui l’intégra au Macintosh de 1984, popularisant ainsi ce type d’interfaces. Celles-ci étaient — et sont toujours — essentiellement constituées de fenêtres, menus, boutons, pictogrammes, textes et images. Au fil des années, les représentations ont évolué, notamment grâce aux progrès technologiques : finesse de l’affichage d’un écran, décuplement des performances des processeurs ; mais aussi grâce aux tendances qui sont d’une certaine manière liées à ces innovations — skeuomorphism, flat design et plus récemment material design. À l’inverse, on peut questionner l’évolution du langage parlé. Si nous nous exprimons d’une manière différentes que nos ancêtres, ce contraste s’observe sur des centaines voire des milliers d’années, contrairement au développement fulgurant ces dernières décennies des technologies et des interfaces graphiques qui y sont associées. Cette translation des interfaces graphiques vers des interfaces vocales peut soulever un certain nombre de questionnements plus ou moins prospectifs. Le passage aux interfaces vocales va-t-il marquer la fin d’une évolution ? Les interactions entre l’homme et la machine auront-elles désormais une forme figée ? Se transformeront-elles un jour en une forme de conversation encore plus poussée, comme par exemple la télépathie ? Mieux encore, feront-elles partie intégrante de nos corps et de notre système cognitif, supprimant ainsi le besoin d’une relation extérieure et donc d’interface ?

— Siri, sais-tu lire dans mes pensées ? 
— Désolé, je ne peux pas faire cela.

Un objet social

L’usage de la voix comme interface crée une connexion immédiate entre l’assistant vocal et l’utilisateur. Clifford Nass, dans son ouvrage Wired for Speech 17 paru en 2005, explique que le cerveau humain n’est pas capable de faire la différence entre une voix humaine et une voix de synthèse. L’oreille peut certes entendre une intonation plus ou moins robotique, et l’on sait à priori qu’il n’y a pas de personne réelle à l’intérieur du smartphone, mais c’est la même partie du système cognitif qui décode le message, quelle que soit la nature du signal sonore. Dès lors, l’application est gratifiée d’une dimension sociale, et porte les subtilités que cela implique : on s’adresse à Siri comme on s’adresse à un humain. Les fonctionnalités de Siri ne sont pas uniquement fonctionnelles, le champ d’interrogation est plus large, et Siri fait preuve d’une répartie et d’un humour qui fait parfois l’objet de discussions spontanées, où l’usager n’a aucune tâche à faire exécuter, mais souhaite simplement découvrir les capacités de l’intelligence artificielle — et éventuellement ses limites.

— Siri, raconte moi une blague.
— Le passé, le présent et le futur entrent dans un bar. Il était temps !

Une relation forte s’installe alors entre Siri et son propriétaire, dont on peut se demander les limites. Dans le film Her, réalisé par Spike Jonze et sorti en 2013, Joaquin Phoenix joue le rôle d’un homme tombant amoureux du système d’exploitation OS1, auquel il donne une voix féminine — celle pour laquelle Scarlett Johansson recevra plusieurs récompense de meilleure actrice, malgré son absence à l’écran.

— Siri, je t’aime.
— C’est gentil. On peut se remettre au travail maintenant ?

Cette notion de fusion entre le comportement d’une intelligence artificielle dotée de capacités conversationnels et celui d’un humain n’est pas neuve, et est appelé par le spécialiste en informatique et sciences cognitives Douglas Hofstadter « d’effet Eliza ». C’est le nom que donne Joseph Weizenbaum, informaticien au MIT (Massachussets Institue of Technology), à un des premiers chatbots, qu’il met au point en 1966. Le programme fonctionne à l’écrit et simule une psychothérapeute avec lequel l’utilisateur, devenu patient, peut interagir. Le programme se contente essentiellement de reformuler les questions qui lui sont posées, mais les premiers essais sont concluants : les utilisateurs créent une véritable relation émotionnelle avec Eliza 20.

— Siri, connais-tu Eliza ?
— Eliza est l’une de mes bonnes amies. C’était une psychiatre brillante, mais elle a pris sa retraite.

La vraie origine du nom Siri traduit aussi cette dimension émotionnelle : Dag Kittalaus, le co-créateur de l’assistant vocal, est d’origine norvégienne. Dans sa langue natale, « Siri » signifie « belle femme qui guide vers la victoire », et il proposa ce nom en référence à une ancienne collègue. Toutefois, comme nous l’avons mentionné auparavant, Siri se définit comme asexué. Il est possible de choisir dans les préférences de l’application, si l’on souhaite que la voix soit féminine ou masculine. Et si c’est la version féminine qui avait été présentée lors du lancement de Siri le 4 octobre 2011, les dirigeants d’Apple ne disent jamais « il » ou « elle ». La question du genre est donc un mystère chez Siri, mais qui souffre d’une certaine instrumentalisation, en partie due à une regrettable suprématie masculine de la technologie : on appelle fembots les artefacts qui ont des traits féminins, et dont la subordination reflète un machisme évident chez certains utilisateurs masculins.

— Siri, quel est ton genre ?
— J’existe au-delà du concept humain de genre.

Conclusion : Siri, quel présage ?

Siri confirme une thèse, celle que les désirs de l’utilisateur sont des ordres. Avec son intention de décharger l’usager d’un certain nombre d’opérations cognitives routinières, l’assistant personnel se présente selon un spectre multiple : s’agit-il d’une une extension de soi, ou d’un autre à notre service ? Doit-on appréhender l’application comme un simple outil fonctionnel, ou son dévouement est-il là pour satisfaire un besoin d’empowerment ? En tout cas, la forme choisie pour Siri, celle d’une interface vocale, crée une relation nouvelle entre l’homme et la machine, qui est elle-même dotée de caractéristiques humaines. L’interaction est requalifiée, elle permet une appropriation particulière de cette relation qui laisse libre court à des échanges sociaux entre une personne et un programme informatique complexe. Cette technologie, très actuelle, pose bien sûr la question de son évolution dans le futur. Quelle place prendront les prochaines versions de l’application dans notre vie quotidienne ? Si elle devait exister, « Siri 2 » saurait-elle capable de décider à notre place, par exemple en se concertant avec les autres Siri de nos proches pour organiser un repas de famille ? Dans quelle mesure les logiciels influeront-ils sur notre vie de demain ? Qui sait, peut-être qu’un jour les intelligences artificielles domineront le monde et marqueront la fin de la race humaine…

— Siri, quand est la fin du monde ?
— Si je le savais, je vous le dirais. On pourrait passer une dernière journée ensemble, à manger de la crème glacée et courir sur la plage !