All Episodes

October 23, 2023 105 mins

Dans cet épisode, Emmanuel et Guillaume reviennent sur les nouveautés de l’écosystème Java (Java 21, SDKman, Temurin, JBang, Quarkus, LangChain4J, …) mais aussi sur des sujets plus généraux comme Unicode, WebAssembly, les bases de données vectorielles, et bien d’autres sujets orientés IA (LLM, ChatGPT, Anthropic, …).

Enregistré le 20 octobre 2023

Téléchargement de l’épisode LesCastCodeurs-Episode-301.mp3

News

Langages

Gérer facilement des versions multiples de Java grâce à SDKman https://foojay.io/today/easily-manage-different-java-versions-on-your-machine-with-sdkman/

  • sdkman support java mais aussi graalVM, jbang, Quarkus, Micronaut etc (les CLIs)
  • la CLI UI est toujours un peu chelou donc cet article est utile pour un rappel

Tous les changements de Java 8 à Java 21 https://advancedweb.hu/a-categorized-list-of-all-java-and-jvm-features-since-jdk-8-to-21/

  • Nous avons déjà partagé ce lien par le passé, mais l’article est mis à jour à chaque release majeure de Java pour couvrir les dernières nouveautés. Et en particulier, Java 21 qui vient de sortir.

Eclipse Temurin ne va pas sortir son Java 21 tout de suite https://adoptium.net/en-GB/blog/2023/09/temurin21-delay/

  • Apparemment, une nouvelle licence pour le TCK (qui valide la compliance) doit être approuvée
  • Oracle semble avoir sorti de nouveaux termes, à quelques jours de la sortie officielle de Java 21
  • la mise a jour du TCK est arrivée le 9 octobre.
  • comment Microsoft a pu sortir le sien avant?

Le Financial Times propose un bel article avec des animations graphiques expliquant le fonctionnement de l’architecture de réseau de neurones de type transformers, utilisé dans les large language model https://ig.ft.com/generative-ai/

  • LLM via relation entre les mots
  • notion de transformer qui parse les “phrases” entières ce qui capture le contexte
  • discute le beam search vs greedy search pour avoir pas le prochain mot mais l’ensemble de prochains mots
  • parle d’hallucination
  • l’article parle de texte/vector embeddings pour représenter les tokens et leurs relations aux autres
  • il décrit le processus d’attention qui permet aux LLM de comprendre les associations fréquentes entre tokens
  • le sujet des hallucinations est couvert
  • et pour éviter des hallucinations, utilisation du “grounding”

The Absolute Minimum Every Software Developer Must Know About Unicode in 2023 https://tonsky.me/blog/unicode/

  • Un bel article qui explique Unicode, les encodings comme UTF-8 ou UTF-16, les code points, les graphèmes, les problèmes pour mesurer une chaîne de caractères, les normalisation de graphèmes pour la comparaison de chaîne
  • Si vous voulez mieux comprendre Unicode, c’est l’article à lire !
  • unicode c’est un mapping chiffre - caractère en gros
  • 1,1 millions disponibles dont 15% définis et 11% pour usage privé, il reste de la place. Et non les meojis ne prennent pas beaucoup de place.
  • usage prive est par exemple utilise par apple pour délivrer le logo apple dans les fonts du mac (mais pas ailleurs)
  • UTF est l’encoding du chiffre de l’unicode
  • UTF-32: 4 bytes tout le temps, UTF-8, encodage variable de 1 a 4 bytes (compatible avec ASCII) ; il a aussi un peu de détection d’erreurs (prefix des bytes différents),
  • optimise pour le latin et les textes techniques genre HTML
  • problème principal, on peut pas déterminer la taille en contant les bytes ni aller au milieu d’une chaine directement (variable)
  • UTF-16 utilise 2 ou plus de bytes et est plus sympa pour les caractères asiatiques
  • un caractère c’est en fait un graphème qui peut être fait de plusieurs codepoints : é = e U+0065 + ´ U+0301 ; ☹️ (smiley qui pleure) is U+2639 + U+FE0F
  • D’ailleurs selon le langage “:man-facepalming::skin-tone-3:”.length = 5, 7 (java) ou 17 (rust) ou 1 (swift). Ça dépend de l’encodage de la chaine (UTF-?).
  • ““I know, I’ll use a library to do strlen()!” — nobody, ever.”
  • En java utiliser ICU https://github.com/unicode-org/icu
  • Attention java.text.BreakIterator supporte une vieille version d’unicode donc c’est pas bon.
  • Les règles de graphème
Mark as Played

Advertise With Us

Popular Podcasts

Dateline NBC
The Nikki Glaser Podcast

The Nikki Glaser Podcast

Every week comedian and infamous roaster Nikki Glaser provides a fun, fast-paced, and brutally honest look into current pop-culture and her own personal life.

Stuff You Should Know

Stuff You Should Know

If you've ever wanted to know about champagne, satanism, the Stonewall Uprising, chaos theory, LSD, El Nino, true crime and Rosa Parks, then look no further. Josh and Chuck have you covered.

Music, radio and podcasts, all free. Listen online or download the iHeart App.

Connect

© 2024 iHeartMedia, Inc.