All Episodes

September 25, 2025 47 mins

פותחים את עונה 4 עם סיפור קוד-פתוח משולב בינה מלאכותית בפרק זה אירחנו את יניר מרמור ממכון וויצמן, ממקימי פרויקט “עברית AI” — יוזמה קהילתית לשיפור תמלול דיבור בעברית. דיברנו על איסוף הדאטה הקהילתי, היבטי זכויות יוצרים ואיך הם התמודדו עם הבעיה, בניית דאטה-סטים וגם על האפליקציות הפתוחות (ווב ובוט וואטסאפ) שכבר מתמללות עשרות אלפי שעות בחודש — לצד אתגרי פרטיות ותוכניות להמשך (סטרימינג, דומיינים רפואיים/משפטיים ועוד). קישורים:

קבוצת וואצפ לעדכונים בפרויקט: 

https://chat.whatsapp.com/CcwpHSezjbQCRvUGuubtkN

 

קבוצת הוואטסאפ לדיונים טכניים יותר: 

https://chat.whatsapp.com/Bpf5DsndFwh9C3Rclk2Oul

 

האתר של הפרויקט: https://www.ivrit.ai/

 

המספר של אליעזר הבוט המתמלל: 055-957-1223

 

הממשק שבו אפשר להעלות הקלטות ולקבל תמלול זריז ואיכותי: 

Transcribe.ivrit.ai 

 

ערוץ היוטיוב להסברים נוספים על תמלול איכותי בכמויות: 

https://youtube.com/@ivrit-ai-l2g?si=9imTFwn8Po_OMmaV

 

ממשק הקלטת חומר אימון למודל: 

https://recital.ivrit.ai/

 

פטראון לתמיכה סמלית במאמץ:

https://www.patreon.com/ivrit_ai

או פייבוקס:

https://links.payboxapp.com/QzVhOJJAzVb 

 

לטכנולוגיים ולטכנולוגיות שבינינו:

כל הקוד שלנו בגיטהאב: https://github.com/ivrit-ai

כל המודלים והדאטהסטים בהאגינגפייס: https://huggingface.co/ivrit-ai

 

מייל לתלונות והצעות 🙃: 

info@ivrit.ai

yair@ivrit.ai 

yoad@ivrit.ai

Mark as Played
Transcript

Episode Transcript

Available transcripts are automatically generated. Complete accuracy is not guaranteed.
(00:00):
ברוכים הבאים לפודקאסט
הטכנולוגיה מדברים
פתוח.
אני ג'וש סלומון.
ואני אילן פינטו.
יחד אנחנו מדברים
על כל מה שחדש בעולם
הפיתוח,
הבינה המלאכותית
והקלאוד,
וקשור ישירות,
או על הדרך לפודק
פתוח.
ככה זה אחרי שעובדים
שנים באופן סורס חייבים
להעביר את זה הלאה.
בין לבין נזכיר גם
עוד כמה באזוורדס,
כדי שנוכל לסגור פינה

(00:21):
ולדסקס על כל מה שחשוב
באמת.
אז שימו אוזניות,
תגבירו את הווליום,
ותעשו מקום למקצועניות
והמקצוענים שבאו
לדבר איתנו פתוח ולעניין.
מדברים פתוח, מתחילים.
בוקר טוב ג'וש. בוקר
טוב אילן, אתה מתרגש
היום?
אתה לא מבין כמה, וואו,
עונה 4.

(00:41):
מתחילים עונה אחרי
שלוש שנים שאנחנו
עושים פודקאסט,
אנחנו מתחילים בעצם
את עונה 4.
את העונה הזאתי,
מה אתה אומר,
אנחנו נתמקד רק ב-AI
או שיהיו עוד נושאים?
נראה לי שה-AI יחליף
אותנו ויעשה את הפודקאסט
במקומנו.
כן.
בעצם באמצע העונה
אנחנו, בלי להגיע,

(01:02):
בלי להודיע מראש,
אנחנו נגיד לאיזה,
לא יודע, נוטבוק
אליהם או מי שזה
לא יהיה, ונייצר פרק
שמג'ונרט על ידי ה-AI
ונראה אם מישהו ישים
לב.
ככה נדע גם מי מאזין,
מי מאזין ומי לא. פרק
כזה יעבוד בעברית
אתה חושב?
יעבוד בעברית, והאמת
שזה כבר,
זה אחלה הכנה בשביל
לדבר קצת על האורח

(01:22):
הבא שלנו.
אז בעונה 4 אנחנו
מציגים את האורחים
שלנו, כי רוב האורחים
שלנו בעונה הקודמת
היו צנועים וממש
לא הציגו את עצמם
כראוי, אז אמרנו
הפעם אנחנו נעשה
את זה.
אז, לא לבד, אנחנו
לא לבד.
מה זאת אומרת? אה,
כן, כן, אנחנו נזהרים
ב-AI.
אנחנו כבר לא, תקשיב,
ג'וש, אנחנו כבר לא

(01:43):
עושים שום דבר לבד.
אני, כשאני הולך לישון,
אני שואל את ה-AI אם
זו השעה הנכונה עכשיו
ללכת לישון או לא.
אז ככה,
אז היום הוא סטודנט
לתואר שני בפקולטה
למדעי המחשב ומתמטיקה,
מחלקת מדעי המחשב
במכון ויצמן למדע
בישראל.
עושה גם תואר שני
בתלמוד, חבר בקבוצת
המחקר של פרופסור
ערן סגל, שבה מתבצעים
מחקרים בחזית הבינה

(02:03):
המלאכותית,
פרסונליזציה רפואית
ועוד. ערן סגל, מי
שזוכר, גם היה אחראי
על תחזיות הקורונה
בזמנו בערוצי הטלוויזיה.
הוא מוביל את המיזם
עברית AI שזה אוסף
נתוני דיבור בעברית
בנפח שלמעלה מ...
טוב, כתוב פה 3,300 שעות,
אנחנו כבר יודעים

(02:23):
שזה לא נכון.
דיבור, יש עוד דיבור
שמיועד לחיזוק טכנולוגיית
דיבור בעברית בהאגינג
פייס.
ובנוסף הוא עוסק
במחקרים בתחומים
כמו מודלים מדעיים
לפיזור מחלות ברחבי
רשתות חברתיות בזמן
אמת,
ובעיתים בשילוב
עם נתונים של קוביד.

(02:44):
קוביד אמרנו, זה ערן
סגל התעסק בקוביד.
יניב מרמור, האורח
שלנו, מה ממה שכנראה
הוא נכון ומה הלוזינשן
של ה-GPT?
טוב, אז שלום לכם,
תודה על ההזמנה והזכות
להיות פה. הרוב נכון
ברמה כזו או אחרת
מלבד סלט כללי של
כל מיני מאפיינים

(03:05):
שהיו שם בדבר הזה,
אבל כן, אני סטודנט
לתואר שני במכון ויצמן,
והמעבדה של ערן סגל,
והפרויקט שאני
אחד השותפים המייסדים
שלו, לא עבדתי עליו
לבד ועליו נדבר,
זה הפרויקט של עברית
AI,
פרויקט שהמטרה שלו
זה לשפר את ה-AI בעברית
ספציפית
בתחום של דיבור.
למי שלא מכיר,
בעצם עברית AI זה

(03:25):
אחד מהמודלים, זה
לא רק מודל, כבר זה
אפליקציה, אנחנו נדבר
על זה, יש המון כאילו
דרכים להתממשק עם
זה,
שפודקאסטים כמו
הפודקאסט שלנו, כשאנחנו
רוצים לייצר כתוביות,
אנחנו בעצם שולחים
את הפרק המוקלט
למודל של עברית AI
ובעצם מג'נרטים את
הכתוביות.
מי שמכיר בוואטסאפ
את אליעזר,

(03:46):
אז הם עושים גם כן
משהו דומה, שולחים
הודעה,
הודעת וואטסאפ לאליעזר,
ובעצם הם הופכים
את זה לטקסט,
ויש עוד הרבה הרבה
שימושים.
אז אולי נתחיל רגע
מההתחלה,
איך בכלל הגעתם, איך
סטודנט לתואר שני,
ואני מניח שאולי
היית כבר אז בתואר
ראשון,
מגיע לאמן מודלים
של speech-to-text, מאיפה

(04:08):
הכל התחיל?
אז נחזור קצת אחורה
באמת, מסר בזמן לפרויקט
הזה. עוד לפני שהפרויקט
התחיל, בספטמבר 22,
סוף שנת 2022, חברת
OpenAI,
שמוכרת בעיקר בזכות
chatGPT, שחררה את המודל
שלה ל-speech-to-text.
המודל, זה בעצם
היה המודל המתמלל,

(04:30):
נקרא לזה האיכותי
מאוד, הפתוח הראשון
שפורסם לציבור. זה
היה בסוף שנת 2022, קוראים
לו וויספר,
אנחנו נחזור אליו,
והוא בעצם כבר אז
ידע לתמלל ביותר מ-100
שפות ברמות דיוק שעוד
לא ראינו קודם.
מדברים דומים לזה,
כמובן שהתחום עצמו
של תמלול קיים כבר
עשרות שנים, תמלול
אוטומטי,

(04:51):
אבל התחום הזה הלך
והשתפר, וזה בעצם
היה סוג של דבר
שהוא שהיה פתוח ובעצם
אפשר לבנות מעליו
דברים. אז אנחנו
פה בהקשר של קוד פתוח,
אבל בעצם מדגישים
שוב כמה בעולם הזה
של דבר זה הוא לא,
לאו דווקא נפוץ ומקובל,
אלא רוב ה-LLM'ים,
שלאו דווקא הם לא
פתוחים,
אבל דווקא מודל התמלול

(05:11):
שלהם הם פתחו אותו.
וכעבור בערך חצי
שנה, זה היה באמצע
2023,
באיזושהי קבוצת וואטסאפ
שאני חבר בה שעוסקת
ב-Medical Data Science, כתב
שם מישהו שאני לא
הכרתי אז,
שקוראים לו יאיר ליפשיץ,

כתב הודעה (05:26):
היי, אשתי
רופאה, ואני ממש
רוצה לתמלל את הפגישות
שלה בשביל שאפשר
יהיה לעשות עם זה
כל מיני דברים,
כמה קשה זה כבר
יכול להיות לאמן
את וויספר שיעבוד
טוב לעברית?
זה בסך הכל בעיה
של
איגום משאבים וקצת
אימון.
כך הוא הגדיר את
זה בזמנו, ואז
אנחנו בעצם התעוררנו
לדיון.
רק, רק, כן? תמיד זה
מתחיל ככה, זה רק.

(05:47):
רק, רק בכוכבי, זה
רק קצת בעיה של דאטה,
וזה הכל, ואנחנו נתמודד
עם זה. יום יומיים
ופתרנו את הבעיה.
כן, ככה זה היה נשמע
בזמנו. כמובן שזה
עורר, זו קבוצה של
הרבה אנשים, וזה עורר
כל מיני תגובות.
אני באותו זמן הייתי
בחופשת לידה עם
הבת שלי, לפני שהתחלתי
את הלימודים בוויצמן,

והיה שם דיון (06:06):
האם
זה אפשרי, האם זה
לא אפשרי, כמה קשה
זה יהיה, כמה קל זה
יהיה, ויצאנו לדרך
עם מין סוג של איזושהי
קבוצת עבודה, שבסוף
הצטמצמה לשלושה
אנשים שלקחו חלק פעיל,
אותו יאיר ליפשיץ'
שהזכרתי קודם,
שהוא מהנדס עם הרבה
שנים בתעשייה, וכנרת
משגב,
שבזמנו הייתה ראש
יחידת מחקרי הדאטה
של הדסה,

(06:27):
ויצאנו לדרך בעצם
לפרויקט הזה בשביל
לפתור את הבעיה הקטנה
של דאטה בשביל לאמן
מודלים של תמלול
בעברית.
זאת אומרת, התחלתם
ממש מצורך אמיתי.
התחלנו מצורך אמיתי
ומאוד ספציפי. הסיפור
של רפואה בעברית ופגישות
של רופאים, שזה הדבר
שנגענו בשלב די מוקדם,
הבנו שהבעיה הזאת
היא הרבה יותר רחבה.
זאת אומרת,

(06:47):
לפני שאנחנו יכולים
לפתור את הבעיה של
הז'רגון הרפואי ומה
שקורה בפגישת מטפל
מטופל, עם כל האתגרים
שכרוכים בזה,
יש לנו את הבעיה
הכללית של עברית.
גם עברית יומיומית
זה משהו שלא באמת
פתור בוויספר,
ויש עדיין יותר מדי
בעיות כדי שהדבר
הזה יהיה שימושי וצריך
להתקדם במאמץ. זה
שלב אחרי שלב.

(07:08):
רגע, איך מתחילים?
יש לכם בעיה, חשבתם
שהיא קטנה, גיליתם
שהיא גדולה, עד פה
כולנו מכירים את
ההרגשה.
אבל עכשיו אתם עומדים
מול בעיה גדולה.
איך מתחילים? שלושה
מתנדבים,
נכון? זה לא בסך הכל.
נכון.
זה גם מה הבעיות. איך
ניגשים בעיה כזאת?

(07:31):
אבל גם מה היו הבעיות?
זאת אומרת, הרי בסוף
שפה זה שפה. כאילו,
גוגל שווה דאטה.
מה זה משנה, עברית?
הדבר הראשון שהבנו
זה שבעצם המחסום
או הפער נמצא בשכבה
הכי בסיסית, שזה דאטה
שאפשר להשתמש בו
בשביל אימון של מודלים.
עכשיו, כאמור, הפרויקט
הזה הוא פרויקט ללא
מטרות רווח וללא כוונות

(07:51):
רווח וגם ללא תקציב.
זאת אומרת,
אין מי שמשלם לנו
על מה שאנחנו עושים
ואין מי שמשלם בעצם
בשביל שום משאב אחר
שנוצר לטובת הפרויקט
כמו דאטה.
ולכן,
הרעיון היה לנסות
לאסוף דאטה שאפשר
יהיה להשתמש בו.
עכשיו, צריך להגיד
שבשביל לאמן מודלים
של תמלול, מה שצריך
בדרך כלל, גם במקרה
הזה,
זה זוגות של הקלטות

(08:12):
ושל הטקסט שאומרים
בהם, כדי שאפשר יהיה
לאמן את ויספר או
כל מנות עם מילול
אחר לשמוע את ההקלטות
ובעצם לחזות או לנסות
לחזות את המילים
שנאמרות באותה הקלטה.
וזה מה שאנחנו היינו
צריכים, הקלטות בעברית
והטקסטים שלהם.
ואנחנו אמרנו, ננסה
לאסוף אותם.
בעצם, אנשים שכבר
הקליטו אותם. זאת
אומרת, אנחנו בעצם
חיפשנו מקומות שבהם

(08:33):
כבר יש הקלטות, שכבר
יש איזשהו תוכן שנעצר
ואנחנו יכולים להשתמש
בו ולמנף אותו לטובת
הדבר הזה.
אבל זה כשאין לנו
יכולת לממן שום דבר
באירוע הזה.
והמשוכה השנייה
שנתקלנו בה בשלב
הזה, אנחנו בעצם יצאנו
מהתור כזה בסוף
אותו יוני 23,
לחפש דאטה כזה, שלחנו

(08:53):
לפודקסטרים כמוכם
ואחרים ובעלי ערוץ
יוטיוב, אמרנו להם,
תראו, אנחנו רוצים
לעשות מודל קהילתי,
פתוח, ללא מטרות רווח,
לשפר את ה-AI בעברית,
תשתפו איתנו את הדאטה
שלכם ואנחנו נוכל
להשתמש בזה.
קיבלנו כל מיני סוגים
של תגובות,
אבל בגדול,
למרות שהיו המון תגובות
אוהדות, היה ברור
שיש לנו איזושהי
משוכה משפטית שאנחנו

(09:14):
צריכים לפתור אותה.
היום הדבר הזה כבר
נמצא בכותרות,
אבל בעצם כבר שנים
הסיפור הזה של לאמן
מודלים ולאסוף דאטה
לאימון של מודלים,
הוא נמצא תחת סוג
של עננה,
עננה משפטית רובצת
מעליו. זאת אומרת,
באיזה דאטה מותר
להשתמש, ממי צריך
לקבל הסכמה כדי להשתמש
בדאטה הזאת,

(09:35):
מתנהלים משפטים
בכל רחבי העולם סביב
הסוגיות האלה של דאטה
שנקצר ונאסף ואורגן
בשביל לאמן מודלים.
ואנחנו, כשאנחנו יצאנו,
אני חושב שבאיזשהו
מקום זאת בעיה שהיא
אפילו, גם היום, זאת
אומרת, לפני כמה זמן
התחלתם את עברית AI?
לפני, זאת אומרת,
אנחנו שנתיים אחרי
וזה עדיין, יש פה
המון המון סוגיות

(09:56):
של זכויות יוצרים,
גם מכיוון התוצר,
גם מכיוון השימוש,
שעדיין לא פתורים,
ולפחות מהצד שלי,
איך שאני רואה את
זה, התעשייה מתגוננת.
זאת אומרת,
מנסים, יש גם הבדלים,
אבל זכויות יוצרים
זה אם אתה עושה רווח,
אם זה משהו שהוא פורסם
אבל אתה לא עושה
ממנו רווח, זה עולם
אחר. יש פה מרחב

(10:17):
מאוד גדול של בעיות
משפטיות, זה לא,
לא הכל זה אותה בעיה.
אני לא חושב שזה
רק אם אתה עושה רווח,
יניר, מה, מה, אתם
הרי לא עושים רווח.
כן, המרואיין אינו
משפטן,
אבל כן ייעץ עם משפטנים
בהקשר הזה, וצריך
להגיד, מדינת ישראל
יצאה סוג של המלצה,
או לא יודע איך זה
מוגדר בדיוק,
של משרד המשפטים

(10:38):
על ידי דוקטור ליטל
הלמן,
שהיא בעצם הציגה שם
קו של משרד המשפטים
הישראלי, שאומר,
זה היה צעד עוד לפני
שאנחנו התחלנו את
הפרויקט,
ששימוש בדאטה לטובת
אימון של בינה מלאכותית
זה,
אם אני זוכר נכון
את הטרמינולוגיה,
זה מוגדר בגדר שימוש
הוגן.
זאת אומרת, אי אפשר
יהיה לבוא אליך בטענות
אם אימנתי את המודל
על הדאטה שלך, ואני
לא עושה שום דבר

(10:58):
עם הדאטה, ואני שומר
על כל מיני דברים
אחרים שלך,
זה יהיה בסדר, צריך
להגיש, סליחה,
אנחנו בזמנו התייעצנו,
עורך הדין שמלווה
את הפרויקט הזה,
פרו בונו,
זה עורך דין אלי גרינבאום,
שהוא מומחה עולמי
בתחום של זכויות יוצרים
וקניין רוחני ואופן
סורס בדיוק סביב
העולמות האלה,
ולמרות הקו שמשרד

(11:19):
המשפטים הישראלי
הציג ומוביל,
בהצתו אנחנו רצינו
להיות הרבה יותר,
נקרא לזה,
שמרניים ופיירים,
באופן קיצוני נקרא
לזה, זאת אומרת,
אנחנו הרי לא מנגישים,
המטרה של הפרויקט
היא לא להנגיש מודלים,
מודלים עם זמניהם,
ודאטה הוא נצחי,
ואנחנו רצינו להנגיש
דאטה,
להנגיש דאטה לאימון
של מודלים,

(11:41):
ומהבחינה הזאת
אנחנו רצינו
להיות על ה-safe side
בצורה הכי קיצונית
שלו, ואנחנו רצינו
לקבל אישור מבעלי
הזכויות של התוכן
לכל תוכן שאנחנו
מנגישים, כי אנחנו
לא רצינו שיקרה מצב
שבו מגיעה חברה בינלאומית
או ישראלית או אמריקאית
או אירופאית,
ורוצה לאמן דאטה ומודלים
האלה, ושואלת את עצמה,
רגע, הדאטה הזה
הוא באישור של האנשים?
הוא לא באישור,

(12:01):
אני אקבל אחרי זה
כתב מכתב מעורכי דין,
אני זה.
הרי בסוף אנחנו
יודעים שאחת הסיבות
ש-AI אולי מדבר על
זה, אבל הסיבה ש-AI
בעברית לא עובד זה
כי זה שוק קטן ויש
פה כל מיני דברים
כאלה,
ואם המטרה שלנו זה
להוריד חסמים,
אז להוריד את החסם
ולהגדיל את הוודאות
המשפטית שיש לחברה
המסחרית שבאה לעבוד
על החומרים האלה,
זה דבר שהוא must ולא
nice to have.

(12:22):
אז אנחנו נסתכל על
זה.
אם אתם עכשיו הולכים,
לוקחים מידע שנמצא
ברשת, כאילו, בהנחה
שהוא זמין בצורה ציבורית,
אין בעיה. אם אני
היום רוצה לאמן מודל
אפילו אחר, מתחרה,
זאת אומרת, כל עוד
לקחתי מידע,
אני צריך לעדכן מישהו?
אני צריך לעדכן,
לא יודע, אם מישהו
שם באתר אינטרנט,
אתה צריך לעדכן
אותי אם אתה לוקח

(12:42):
היום את הפודקאסט
שנמצא מאתר שלנו
בשביל לאמן את המודל?
אני לא יודע מה אנשים
אחרים עושים,
ואני לא יכול להמליץ
להם לעשות דברים כאלה
או אחרים. מה שאנחנו
בפרויקט עברית AI עשינו
זה לבקש רשות והסכמה,
מכתב,
מכל מי שהשתמשנו
בתוכן שלו.
מכתב הסכמה שהוא
בעצם מתיר להשתמש
בדאטה הזו לטובת אימון
של מודלים.

(13:03):
כך אנחנו יודעים שכל
הדאטה הזו שאנחנו
מנגישים לאימון מודלים,
כולו,
מה שנקרא, חתום על
ידי בעלי הזכויות.
זה לא שמישהו יכול
להגיד, רגע, עשיתם
לי ככה ואחרת, לא דיברתם.
הנקודה פה, אילן,
זה לא המודל שלהם
מותר לעשות את המודל,
הם מנגישים את הדאטה.
עכשיו כל אחד יכול
להשתמש בדאטה,
והם כדי להיות on the
safe side,

(13:24):
כל מי שתרם להם דאטה
אישר שישתמשו לאימון
מודלים. לא יודעים
לאיזה מודלים או
מה, אבל אתם נותנים
בעצם
בנק גדול של דאטה
בעברית של הקלטות
ותמלול שלהם,
שכל אחד יכול להשתמש
בו למטרותיו,
כי יש אישור של בעלי
הזכויות.

(13:46):
להשתמש בו למטרות
אימון מודלים, לא
למטרותיו, למטרות
אימון מודלים.
אני רגע אעשה רפרנס
לפרק אחר שעשינו
עם אסף ארבל, ששאלנו
בעצם מה זה קוד פתוח
במודלים, אז דיברנו
על שלוש חוות,
ובעצם השכבה הבסיסית
שלא תמיד משחררים
אותה זה באמת השכבה
של הדאטה. זאת
אומרת, הרבה פעמים
אתה תראה מודל
שהוא לשימוש חינמי,

(14:10):
הגינג פייס מלא בכאלה,
ואני יכול גם לראות
את המשקולות,
אבל את הדאטה אני
לא יכול לעשות לו
inspection, ובמקרה שלכם
בעצם זה ממש לגמרי
חופשי. עכשיו התחלנו.
המטרה שלנו הייתה
שהדאטה יהיה פתוח
לשימוש מסחרי,
לאימון מודלים ושימוש
מסחרי.
באמת שתי הכוכביות,
כמו שג'וש ציין, זה,
א', זה לא לכל שמו,
זה רק לאימון מודלים.

(14:32):
למשל, אתה לא יכול,
אם זה הפודקאסט שלכם,
אני לא יכול לקחת
אותו ולכתוב ספר,
ספר הראיונות שעשיתי,
ג'וש ואילן מראיינים,
ולהוציא ספר באיזו
הוצאה מסחרית ולמכור
אותו, כי זה, שיהיה
רב-מכר, מה? רב-מכר,
אז זה, לכן זה בעייתי.
והדבר השני שאסור
לעשות Deepfakes, זאת
אומרת, מותר לאמן
מודלים, אבל לא מודלים
שמזייפים את הקולות
של האנשים שתרמו
את הדאטה,

(14:54):
ואז עושים להם הביוז.
זאת אומרת, אפשר
לאמן מודלים מכל מיני
סוגים, אבל לא לנצל
את זה לרעה כנגד
האנשים שהקול שלהם
נמצא בדאטה סט.
כך יצאנו לדרך.
אגב,
פנו אליכם כבר כל
מיני גופים וביקשו
להשתמש בדאטה, או
שהם לא צריכים לפנות
ואתם לא יודעים אם
הם, או אתם יודעים
כמה דאונלודים מצאו
לזה, או...
כן, אז לא צריך לפנות

(15:16):
אלינו, זאת אומרת,
דרך Hugging Face יש שם
איזשהו סוג של גייטינג
כזה, שאתה צריך כאילו
לבטא את הסכמתך לתנאי
השימוש האלה, ואז
אתה יכול להוריד
את הדאטה סטים.
ויש להם,
לחלק מהדאטה סטים
מאות הורדות, לחלק
אלפי הורדות.
הנגשנו כל מיני סוגים
של דאטה סטים, אז אולי
צריך עכשיו, כאילו
רוצים להתקדם לכל

(15:37):
סוגי הדאטה, כן, בשכבה
דאטה שנאספה.
בעצם אספנו ככה אלפי
שעות של פודקאסטים
ויוטיובים שכבר היו
ברשת.
אבל אמרנו שצריך כתוביות,
כי צריך את הטקסט
שלהם, אבל לרוב אין,
כן? זה מתויג.
בדיוק, זה לא מתויג,
הדאטה הזו, והעלות
של משאבי תיוג של
הדברים האלה היא
מאוד גבוהה. זאת
אומרת, לתמלל שעה
של הקלטה זה מאות
שקלים,

(15:58):
ולתמלל אלפי שעות
זה כבר מאות אלפי
שקלים,
ואין לנו את המשאבים
האלה,
ומה שעשינו זה הפרויקט
crowd source אנחנו בעצם
הרמנו ממשק שבו
אתה מקבל כל פעם
מקטע קצר של אודיו
של איזה 10 שניות 15
שניות.
מקבל את התמלול האוטומטי
שלו ומתבקש לתקן
אותו.
והדבר הזה היה מפתיע

(16:18):
בכמה שזה תפס.
אנשים ישבו בחדר
ההמתנה באוטובוס
בבית בשירותים כל
אחד על הספה ויכלו
לתקן ולעשות דברים
כאלה ותוך כמה חודשים
מתחילת הפרויקט שחררנו
אלפי שעות תוך שלושה
חודשים שחררנו 3,000
שעות לא מתויגות ו-50
שעות מתויגות.

(16:39):
רגע מהפרויקט crowd
source כמה כמה שעות
אספתם שם אתה זוכר?
כן, מאז אספנו 500 שעות
מתויגות ב-crowd source.
כמה מה המטרה כמה
אתם צריכים כאילו
בשביל לאמן מודל כמו
שצריך?
אז השאלה אוקיי זה
שאלה קצת באבולוציה
של מודלים. בשביל
לאמן את המודל הראשון
המודל הראשון שאנחנו
אימנו אותו.
זה עוד היה בשלב שמי
שעזר לנו לאמן אותה.

(17:00):
נותן פה הרבה שמות
של אנשים שעזרו
לנו כי בעצם זה פרויקט
קהילתי והתועלת
של כל אחד. תרגיש חופשי
אנחנו לא מצלמים
אותך.
ים פלא גימן את המודל
הראשון על איזה 100
שעות אולי פחות של
דאטה שתויג אנושית.
אחר כך הצטרף אלינו
לפרויקט בצורה אינטנסיבית
ולאורך זמן זה יועץ
נפיר והוא גם צימן

(17:21):
מאז גרסאות נוספות
של המודל על 100 ו-200
ו-300 ו-400 ו-500 שעות
של דאטה מתויג.
מאז אנחנו הבנו
שאנחנו גם צריכים
להתרחב לסוגים אחרים
של דאטה.
זאת אומרת בסוף יש
כל מיני סוגים של
אלמנטים שיש לנו
במנועים של איזה
של כן speech to text.
אחד מהאלמנטים
האלה זה אלמנט שקשור

(17:42):
לתזמון המילים באודיו.
זאת אומרת לא מספיק
שאתה מזהה את המילים
יש גם חשיבות לפחות
בוויספר וגם בכל מיני
סוגים של אפליקציות
לדעת מתי נאמרה כל
מילה.
כי אתה לא רוצה גוש
של טקסט אתה רוצה
להגיד טקסט לכתוביות
אתה רוצה טקסט
שהוא מתואם ומסונכרן
עם ציר הזמן.
ובשביל זה היינו
צריכים סוגים אחרים
של דאטה.
אז יצאנו לפרויקט

(18:02):
crowd source אחר של הקלטות
שבו בעצם לא השתמשנו
בדאטה ספונטני שאנשים
דיברו בפודקאסט
אלא ביקשנו מאנשים
לקרוא טקסטים.
ואנשים קראו ערכים
מוויקיפדיה בפרויקט
שנקרא בממשק שנקרא
רסיטל.
וכל שורה הם לחצו
enter enter enter enter enter
ואז בעצם אנחנו ידענו
מתי אנשים אומרים
משפטים ומילים מסוימות.

(18:24):
ויכולנו להלביש
את הדבר הזה על ציר
הזמן ובעצם לאמן מודל
שהוא יודע
יותר טוב לא רק איזה
מילים נאמרות אלא
גם מתי נאמרת כל מילה.
אבל לא מספיק לזהות
את העצירות
בין מילים?
או שזה לא קיים?
בחלק הראשון שבו
אספנו דאטה ה-counter
הוס הראשוני היה

(18:44):
למשפטים נטולי קונטקסט
מתי אתה מקבל 10 שניות
וכאילו חוזה מה שיש
שם.
אנחנו בעצם רצינו
בשלב יותר מתקדם שיהיה
לנו דאטה שיש לו קונטקסט.
אתה יודע זה משפט
נאמר לפני זה משפט
אחרי ויש לך את זה
על ציר זמן.
ואז אתה יכול לשחק
עם ציר הזמן מהקלטות
ועם הטקסטים ולקבל
בעצם מידע יותר מדויק
על התזמון של מה שקורה.

(19:05):
כי שוב ה-use case הרגיל
זה לא לקבל 5 שניות
ולתמלל אותן אלא
לקבל הקלטה של הרצאה
של שעתיים של פגישת
עבודה של חצי שעה
ולתמלל אותה.
ושם אתה בעצם רוצה
לקבל את הדברים כשיש
להם איזשהו קונטקסט
טמפורלי.
כן.
אז רגע האמת זה מעניין.
בעצם אתם קיבלתם

(19:26):
הרבה עזרה מקהילה
לא יודע אני לא שמעתי
עליה אבל מן הסתם
הצלחתם להגיע לכמות
די ניכרת של אנשים
עם.
שעזרו לך.
בעצם שום דבר בפרויקט
הזה לא היה מצליח
לזוז בלי אנשים שיעזרו
לנו.
אז הראשונים שצריך
להזכיר בהקשר הזה
זה תורמי התוכן.
אנחנו פנינו ל...
אני כאילו באופן אישי

(19:46):
פניתי לעשרות רבות
של יוצרי תוכן פרטיים,
גופי שידור יותר
מסודרים כל מי שיש
לו תוכן מיוטיוב
ברמה זה.
פניתי להמון אנשים
כאלה ועשרות מתוכם
אישרו לנו להשתמש
בדאטה שלהם וכולם
מוזכרים באתר. זאת
אומרת כל מי שהפודקאסט
שלו, ערוץ יוטיוב
שלו,
עלה בין יוזר תרגולים
באלגברה ליניארית
או שיעורים בתנ״ך

(20:07):
או ראיונות על אינספורטאים
כל הדברים האלה נמצאים
גם בקרדיטים באתר.
אחר כך אלפי זאת
אומרת אני חושב שבסוף
השלב שבו נכון לעכשיו
מעל 2500 איש השתתפו
הפודקאסט של ה-crowd
source שתמללו יותר
מכמה קטעים.
כשלפחות 100 אנשים
תמללו שעתיים ויותר.

(20:27):
איך הגעתם אליהם?
כאילו ליוצרי תוכן
הגעתם,
חיפשתם תוכן הלכת
פנית ליוצר איך הגעת
לכל כך הרבה אנשים
שעשו לך crowd source?
אז פרסמנו ברשתות
כאילו בלינקדין פייסבוק
דרך חברים דרך קבוצות
וואטסאפ למיניהם
ואני חושב שזה נפל
להרבה מאוד אנשים
על איזושהי משבצת

(20:48):
של לעשות לעשות משהו
טוב ועוזר זאת
אומרת אנחנו כולנו
בסוף.
אולי אחת החברת המרכזיות
מעבודה לפרויקט
הזה שאנחנו מעורבים
בכל אחד מאיתנו מעורב
בכל מיני פרויקטים
טכנולוגיים.
אבל באיזשהו מקום
כשפרויקט פוגש צורך
של קהילה אז הקהילה
היא נותנת לך איזשהו
סוג של קונטראקט כזה
נותנת לך איזשהו סוג

(21:09):
של תמיכה במובן
הזה זה קהילה מקומית.
אז יש בזה גם משהו
כאילו מאוד אפילו
כזה פיזי גיאוגרפי
במיוחד שאנחנו צריך
גם להגיד הפרויקט
הזה בעצם רץ.
התחיל כמה חודשים
לפני תחילת המלחמה
אבל רוב רוב הפרויקט
רץ במקביל בשנת סוף
23 שנת 24. כשכולנו ככה
חווים את הדברים.

(21:30):
את המציאות בצורה
על כל קשייה.
והיה בזה משהו
מאוד נקרא לזה מקומי
לא לא אגיד משפחתי
אבל חברי וכאילו
השותפות הזאת.
סביב זה שאם אנחנו
לא נדאג לעצמנו אין
בעצם מי שידאג לנו.
זה היה נראה לי חלק
מהחלק מהסנטימנט
שעובר בשיתוף הפרויקט
הזה לא עובדים ביחד
איזה שהיא ספריית

(21:51):
ויזואליזציה בפייתון
שעשרה אנשים מכל
העולם. זה משהו שאנחנו
בשכונה ביישוב בקיבוץ
וזה מדברים עליו
במפגשים משפחתיים
וככה זה מתגלגל.
אוקיי אז אז אז רגע
אני חוזר לסיפור.
בעצם אז היה לכם
את הפרויקט של הרסיטל
היה לכם את התוכן
של של יוצרי התוכן.
אחלה יש מספיק שעות

(22:12):
התקדמתם יצאתם עם
זה לעולם.
זה התפוצץ.
לא?
נכון אז.
טוב זה זה זה הכל
בשלבים כן אבל אחרי
בערך תשעה חודשים
שחררנו את המודל
הראשון.
שאימנו וכבר בשלב
הזה הוא הראה שיפורים
משמעותיים על ויספר
האורגינלי.
זאת אומרת הוויספר

(22:32):
שוויספר המקורי
לפי המאמר של openAI
הוא ראה בערך 600 שעות
של אודיו בעברית.
אנחנו נתנו לו אז
עוד בערך 100 או 100 ומשהו
שעות בעברית וכבר
הראינו שיפור.
בעצם המשכנו לאמן
אותו על כל פעם ששוחרר
שוחרר דאטה נוסף.
עד שזה הגיע לרמה
שלפני כמה חודשים
שבה אנחנו ראינו
שהמודל הזה הוא כבר
ברמה שהוא מתחרה
לא רק במודלים הכתובים

(22:54):
אלא גם במודלים
המסחריים יש לכמה
חברות מסחריות.
אם להזכיר שמות גוגל
אמזון יש להם מודלים
של תמלול בעברית
ואנחנו רואים שהמודלים
החדשים שאנחנו מוציאים
הם כבר מתחרים ברמה
שלהם.
ואז עולה פה שאלה
איך מה זה מתחרים
ברמה שלהם איך מודדים
בכלל מודלי תמלול.
האם המדידות האלה
עוזרות במשהו.

(23:15):
אז צריך להגיד לך.
כן, זה עומד לי בגרון
השאלה הזאת.
אז אוקיי אז השאלה
מצוינת כי הכנו שקף
האמת שלא הכנו שקף
הכנו לידר בורד.
זאת אומרת כשמודדים
מודלי תמלול אז
המטריקה המקובלת
היא word error rate.
כאילו מה היחס של
המילים הלא נכונות
שיש בכל ביחס לטקסט
הגאונט רות' שאכן
נאמר.

(23:36):
אבל אז השאלה היא
באיזה דאטה משתמשים
בשביל לעשות את
האבלואציה הזאת.
יש כמה דאטה סטים
אין הרבה דאטה סטים
שהם ולא היו אז גם
שיש בהם עברית עברית
מתויגת שאפשר להשוות
אותה יש שני פרויקטים
גדולים אחד של גוגל
ואחד של מוזילה.
שיש בהם דאטה סטים
לאמון ולאבלואציה
בהרבה שפות וגם בעברית.

(23:57):
רק בשביל שהמאזינים
יבינו וגם אני האמת
איך נראה כזה כזה
דאטה שאתה מדבר עליו
זאת אומרת יש לי מילה
וליד המילה רשום
באיזה שנייה באודיו
היא נמצאת.
משהו כזה או שזה
ממש טקסטים זוגות
של זוג של הקלטה
של 10 שניות והטקסט
של אותם 10 שניות
או דקה ודקה או 5 דקות
ו5 דקות ואז מודדים

(24:17):
מה החלק היחסי של
המילים שהיו לא נכונות
בעצם.
אתה מקבל עונש כן
על כל מילה שטעית
בה על כל מילה שהוספת
ולא על מישהו אוהב
מישהו בא שומע את
ההקלטה שומע את
הזה.
ונותנים את הדאטה
סטים.
נקרא לזה הפומביים
אמורים לשמש בנצ'מרק
זאת אומרת הם מפרסמים
אותם את האודיו עם
הטקסט הנכון.

(24:39):
הנכון אולי צריך
להיות במרכאות או
הנכון לשיטתם כי
הדאטה סטים האלה
גם הרב לשונים גם
של גם דאטה סט שנקרא
פלורס של גוגל וגם
דאטה סט של common voice
שהם.
שזה פרויקט של מוזילה
יש בהם הרבה מאוד
בעיות בעברית זאת
אומרת אני לא יודע
מה קורה שם לגבי שפות
אחרות אבל.
נגיד בדאטה סט של
מוזילה יש שם רק שבעה

(24:59):
גברים שמדברים זה
בטח לא מייצג את
כל דוברי העברית.
הם קוראים. נכון,
החברה הישראלית
היא מגוונת מאוד זאת
אומרת יש לנו עולים
חדשים.
לא יודע דרוזים בדואים
עולים מארצות הברית
לצורך העניין שיש
מבטאים יש.
יש אני לא יודע גם
אם יש ז'רגון אבל
יש איזשהו בטח הבדל
לז'רגון לא יודע ירושלמים

(25:20):
שומרים מאתיים.
צריך לקלוט את זה
לא.
כן אבל בצורה יותר
רחבה אין רק גברים
בגיל 30 במדינה דוברי
עברית שזה מה שיש
שם.
ובדאטה סט של פלורס
שם הרבה בעיות אחרות
שזה בעיקר אנשים
שהם לא דוברי עברית
קוראים טקסטים שהם
אמורים
להיות עברית זאת
אומרת גילינו שיש
לנו בעצם בעיית אבלואציה

(25:41):
זאת אומרת אנחנו
יכולים לאמן את המודלים
והמודלים נשמעים
לנו יותר טוב.
אבל אנחנו בעצם צריכים
להעמיד תשתית אם
המטרה שלנו זה לעזור
לקידום ה...
ספיצ' לטקסט בעברית
אנחנו צריכים להעמיד
סוג של מדד שהוא
יהיה אפקטיבי זאת
אומרת שהוא יאפשר
להעריך גם מודלים
שלנו גם מודלים של
אחרים.
כדי לקדם את זה הרי
אנחנו יודעים בתחום
שלנו כן של.
ופיתוח והנדסה וכל

(26:02):
הדבר הזה אנחנו צריכים
מטריקות כדי שנוכל
להתיישר אליהן אחרת
אנחנו זה הכל נשאר
בעולם של תחושות.
וזה שמישהו מפרסם
עוד תמיד מתפרסם עוד
מודל שזה המודל הכי
טוב זה המודל הכי
טוב בעולם וזה הכי
טוב בארץ וזה הכי
טוב בזה אבל צריך
למדוד את זה.
ולכן אנחנו הכנו כמה
דאטה סטים מסוגים
שונים שמשקפים צורות

(26:22):
דיבור שונות מגיעים
זאת אומרת.
הקלטות וואטסאפ
והקלטה של פודקאסטים
וכתוביות בטלוויזיה
והקלטות
אפילו גם השמשנו
את הדאטה סט של שאול
אמסטרדמסקי פרסם
בזמנו לפרויקט שלו
שנקרא רובו שאול וכל
אלה משמש סוג של סוג
של בנצ'מרק שאפשר
למדוד את המודלים
השונים ביחס אליו.

(26:43):
ולקבל ציונים לגביהם
ואת כל הלידר בורד
הזה אנחנו גם פרסמנו
באגינג פייס כדי
שאם יש לכל אחד מודל
חדש או התפרסם משהו
חדש יכול להריץ את
המודל שלו מול כל
הדאטה מול כל הדאטה
הזה ולקבל את הציונים
של מידת השגיאה שיש
לו.
ולהשתלב גם כן בתוך
הלידר בורד.
אגב שאלה שרוצה טיפה

(27:03):
אחורה המודל שלכם
הוא מודל שנבנה
מאפס או שהוא מתבסס
על וויספר ורק נותן
לו עוד דאטה בעברית.
הוא מבוסס על וויספר
והוא מנה לא דאטה
בעברית לא השתנה
הארכיטקטורה של
המודל לא השתנתה.
זה בעצם אז אוקיי
אז בניתם דאטה סטים
ולידר בורד ואיך
אתם איפה אתם בממצאים

(27:26):
מה הדירוג שלכם.
אנחנו במקום טוב
בצמרת של הלידר בורד.
אפשר גם לדבר אולי
על כל מיני אתגרים
שיש כאילו א' על מה
עוד עובדים בדרך
אבל אולי עוד דבר
אחד נקרא לזה במאמצי
הדאטה לפני כן.
באיזשהו שלב כל הזמן
כל זמן שאנחנו עבדנו
בלאסוף דאטה
אנחנו גם ניסינו
לפרסם את העבודה
שלנו בסוף עבודה
שהיא קהילתית.

(27:48):
אנחנו לא מפרסמים
את זה ברשתות בשביל
יחסי ציבור אלא בשביל
שאנשים יוכלו לעזור
לנו ולהיעזר בדבר
הזה זאת אומרת מבחינתנו
המדד להצלחה של הפרויקט
זה לא אחוז שגיאה
נמוך יותר.
אלא שילוב של הטכנולוגיה
הזאת בתוך כלי העבודה
היומיומיים של אנשים
בתוך אפליקציות תמיכה
בעברית בכל מיני דברים
זאת אומרת לא מעניין
אותנו לנצח כאילו
המודלים מעניין

(28:09):
אותנו שיהיה לאנשים
שיחות בין התמלול
של שיחות בין רופא
לפציינט למשל בדיוק
כן כן בכל המקרים
האלה.
וכל הזמן הזה
אנחנו בעצם קיבלנו
מאנשים רעיונות
למאיפה עוד נוכל
להביא דאטה.
למה אתם לא מדברים
איתם למה אתם לא
מדברים עם האלה למה
אתם לא מדברים עם
הם.
צריך להגיד יש גופים
שיש להם הרבה מאוד
דאטה כזה הרבה

(28:29):
מאוד דאטה מתויג
אנשים שעסוקים בלייצר
תוכן לשידור יש להם
את הדאטה הזה.
והיה מורכב או בלתי
אפשרי לקבל את האפשרות
להשתמש בו.
מי שכן עזר לנו ונעזרנו
מאוד בדאטה שלהם
זה הכנסת.
הכנסת מחויבת על פי
חוק או לא יודע בדיוק
מה להנגיש את דיוני

(28:50):
המליאה גם בפרוטוקולים.
אז הם בעצם משלמים
לאיזושהי חברה שעושה
תמלול של הדבר הזה.
ובעצם אפשר למצוא
אני חושב את כל דיוני
מליאת הכנסת מ-15
או מ-20 השנים האחרונות
גם בוידאו אודיו כמובן
וגם בטקסט.
וואו מנוטרל צעקות?
מנוטרל צעקות קריאות

(29:11):
ביניים ניבולי פה
וכל אתה יודע.
חלק מהג'וס מוצאים
אבל בסופו של דבר
מדובר באלפי נדמה
לי שמדובר על משהו
כמו 9,000 שעות של אודיו
שעבר תמלול.
וואו. צריך להגיד
שהתוכן הזה הועבר
תמלול לצרכים פרוטוקוליים.
זאת אומרת
ניטרלו צעקות והתאימו
אותו לפורמט ובעצם

(29:31):
נעשתה פה המון עבודה
גם כאן על ידי יועד
המשותף לפרויקט
של להכין בעצם את
הדאטה הזה לאימון.
זאת אומרת לקבל את
הערימה העצומה הזאת
כן זה טרות של של
הקלטות ושל ושל פרוטוקולים.
ובעצם להתאים אותם
כדי שהתוכן הזה אפשר
יהיה להזרים אותו
בתוך הפייפליין
של האימון של וויספר.
ואחרי שהדבר הזה נעשה

(29:52):
בעצם נוספו לנו צריך
להגיד כן הדאטה של
מדינת הכנסת לא רק
מדובר על המון דאטה.
גם מדובר על דאטה
שהוא מייצג את החברה
הישראלית במובנים
רבים.
זאת אומרת בין אם
זה בנושאים בין אם
זה האוכלוסייה שגרה
בישראל אנשים עם מוצאים
שונים אנשים עם רקעים
שונים.
זה לא רק פודקסטרים
טכנולוגיים שמדברים

(30:12):
על קוד פתוח אלא
זה מה שנקרא
החיים עצמם במדינת
ישראל והאופן שבו
אנשים מדברים.
לכן אפשר גם להוציא
דברים טובים ממה שקורה
שם.
אפשר להוציא דברים
טובים מהכנסת זה
היה ה-highlight של ה...
והם עזרו לנו. צריך
להגיד שקובי שליסל
מהמחשוב של הכנסת
עזר לנו בעצם למנף
את הדאטה הזה לטובת

(30:33):
האימון של המודלים.
אני חושב בשיחת הכנה
שלנו כשסיפרת לי
את זה.
זה כאילו זה אחד
מהדברים שבאמת הדהים
אותי כאילו.
אנחנו לא חושבים
על זה אבל בסוף זה
ממש זהב מה שקיבלתם.
זאת אומרת קיבלתם
דאטה מתויג, ערוך,

(30:53):
נקי ברמה מסוימת.
כמו שאמרת מייצג
אני לא יודע באמת
עד כמה מייצג אפשר
להגיד שזה מייצג
אבל כן מבחינת מגוון
קולות.
יש לך 120... 120 כפול
לא יודע כמה קנסות
15 שנה הוא עובד. לא
לא אבל יש גם ועדות
ויש כל מיני ז'רגונים
וכאילו על פניו אמור

(31:14):
להיות פה איזה
שהוא פלח מייצג של
האוכלוסייה לא
יודע אם סטטיסטית
אבל בהחלט איזה
שהוא מגוון יותר
ממה איך אמרת קודם
גברים לבנים בני 30
30 עד 40 אז זה בטח
לא הכנסת שלנו.
כולל כולל לא יודע
צעקות זה גם בסוף
יש איזה סיפורים
מעניינים אבל מהדאטה
שקיבלתם זאת אומרת
דברים שבסוף זה 9,000

(31:35):
9,000 שעות זה משפיע
על המודל לא.
נכון אז.
אז באמת צריך להגיד
הם לא נתנו את זה
רק לנו.
זאת אומרת זה משהו
זה מידע שהם משחררים
אותו באופן פומבי.
כן אבל אתם היחידים
שעשיתם איתו משהו.
אנחנו היחידים גם
צריך להגיד שזה
באמת זה דרש הרבה
עבודת נקרא לזה pre
processing כדי להכין
את הדאטה הזה כי
לפעמים יש הקלטות

(31:56):
יש דיונים בכנסת
של 40 שעות.
ההקלטה נמשכת ויש
דברים לאנשים הולכים
לישון אנשים קמים.
והפורמט של פרוטוקולים
הוא לא דומה למה
שאנשים באמת אומרים
למשל כל מה שקשור
להצבעות זה מופיע
בפרוטוקולים במין
איזה צורה של טבלה
כזאת.
בדרך כלל אומרים פינטו
בעד מתנגד זה זה
לא כאילו זה לא בדיוק
כמו שזה כתוב.

(32:17):
צריך להגיד שאנחנו
כן ראינו השפעות
אחרי שהרצנו איטרציות
של נוספות של אימון
על הדאטה הזה.
אז המודל השתפר והוא
השתפר בעיקר בחוויה
של איך שאנשים חווים
אותו זאת אומרת פתאום
הכתיבה הייתה הרבה
יותר רהוטה.
בין אם זה השימוש
בסימני פיסוק בין
אם זה כל מיני תיקוני
עברית.
הרי אנשים כשמדברים
בעברית הם לא תמיד
משתמשים ב...

(32:37):
כן שלוש שקל לפני
שתי שנים הלכתי
וקרה ככה וככה ופתאום
היו כל מיני נקרא
לזה שפצורים כאלה
למה שקורה.
כנראה בגלל שזה גם
תופעות שמשתקפות
בפרוטוקול זאת
אומרת מישהו אומר
איזושהי מילה בהקלטה
והיא מקבלת תמלול
שהוא ככה קצת יותר
נקי.
הדבר הזה אבל השפיע
לא רק לטובה אלא

(32:58):
גם השפיע על ההזיות
שקיבלנו כשמשתמשים
בהם.
כמו לכל מודל גנרטיב
אז גם למודלי תמלול
יש הזיות הן קורות
בעיקר בזמנים שאין
בהם באמת דיבור זאת
אומרת אם אתה תעלה
למין מודל תמלול וויספר
או אחד אחר קטעים
של שקט או קטעים
שאנשים לא מדברים
שומעים רק רעשים
או צלילים או דברים
מהסוג הזה אז הוא

(33:18):
יתחיל להמציא מילים.
ובדרך כלל המילים
האלה זה מין מילים
נפוצות כאלה תודה
תודה תודה כן כן
כן לא לא לא.
יש מודלים שמה שיוצא
בסוף זה תמיד הכתוביות
כאילו מי כתב את
הכתוביות כי זה החלק
שמופיע בשקט זה כזה
הכתוביות נעשו על
ידי ככה וככה שזה
כאילו משם כנראה
לקחו את הקלטות.
אחרי שאימנו את הדאטה

(33:39):
על הכנסת אז התחלנו
לקבל בקטעים של שקט
קטעים כמו כנסת נכבדה
כנסת נכבדה אדוני
היושב ראש אדוני
היושב ראש.
זה סוגי הזיות שקיבלנו
זה כמובן מאוד משעשע
וחושף באמת חלק
ממקורות הדאטה של
המודל.
הכל בהתנדבות הכל
בזה יש דבר אחד
שהוא כנראה לא בהתנדבות.
אתם צריכים לאמן

(33:59):
את המודל על gpu אין
היום gpu בהתנדבות gpu
עולים כסף איך איך
מאיפה המשאבים לאימון
של ה...
נכון אז אז אין gpu
כמעט לא רק gpu שעובדים
בהתנדבות אבל יש
אנשים שמוכנים לממן
אותם את המודלים
הראשונים אנחנו אימנו
על חשבוננו אחרי כמה

(34:20):
גרסאות שהמודל
הזה כבר הלך וצבר
תאוצה וגם השימוש
בו אז יצרנו קשר
עם פרופסור יוסי קשת
מהטכניון ובעצם
הוא תרם ועדיין תורם
לנו את השימוש ב gpu
עבור האימון של המודלים.
אז זה ה gpu שהולך
לאימון.
בנוסף צריך להגיד
שחלק לא קטן מההוצאות
הוא לא הולך על אימון

(34:41):
וזה בכלל בעולם הולך
על inference.
זאת אומרת אנחנו
בעצם כאילו להזכיר
את זה בהתחלה אבל
מעבר ל... אם יש לנו
את השכבות של הדברים
הפתוחים אז חוץ מדאטה
ומודל אנחנו בעצם
שחררנו גם אפליקציות
פתוחות לתמלול זאת
אומרת יש את הבוט
את אליעזר בן יהודה
בוואטסאפ שאם שולחים
לו הקלטות הוא מתמלל
ו...
הוא מתמלל עשרות

(35:01):
אלפי הודעות בשבוע
ברמה הזאת וכאילו
תמליל עליהם מיליוני
הודעות.
אז ש... השקנו אותו.
ויש לנו גם עם שק ווב
שבו אתה יכול לעשות
דראג אין דרופ לקבצים
ובעצם לתמלל אותם
ופה אנחנו מבוססים
על תרומות זאת
אומרת אי אפשר לשלם
כדי לקבל תמלולים.
אבל כן אפשר לתרום
במאמץ לתרום למאמץ

(35:21):
ולתרום לפרויקט בפטריון
או בפייבוקס ובעצם
בזה אנחנו משתמשים
כדי לממן את ה gpu ל
inference.
וזה מספיק זאת
אומרת אנשים משלמים
בצורה הוגנת?
תראה בתרומות אף פעם
אנשים לא משלמים
בצורה הוגנת.
אנשים משלמים לפי
איך שהם מרגישים
שהם מקבלים אנחנו
מקווים ולפי אם הפרויקט
מעניין אותם או לא
זאת אומרת דווקא

(35:41):
מהבחינה הזאת
אנחנו רואים שאין
הלימה זאת אומרת דווקא
יכול להיות מישהו
שאומר פתאום אחרי
איזשהו הרצאה או
אחרי איזשהו פודקאסט
או משהו כזה וואי
שמעתי על זה פעם ראשונה
עכשיו מגניב שמתי
לכם תרומה של 100 שקל.
למרות שהוא לא השתמש
אפילו פעם אחת זה
פעם ראשונה שהוא
שמע על זה ולעומת
זה אנשים שמשתמשים
הרבה ופחות זאת
אומרת זה לאו דווקא
משהו שהם מתגמלים.

(36:02):
אבל צריך להגיד כבר
אנחנו נקרא לזה הגענו
כבר לשוקת שבורה
בהקשר הזה זאת
אומרת אנחנו בעצם
פתחנו את התמלול
החופשי והגענו למצב
של לפני כמה חודשים
של עשרות אלפי שעות
של הקלטות בחודש.
עכשיו צריך להגיד
משהו סביב הדבר
הזה.
דיברנו קודם על זה
שעלות תמלול של בן
אדם זה מאות שעות
לשעת אודיו.
אבל תמלול מכונה
זה הרבה יותר זול.

(36:24):
כמה יותר זול אז נכון
להיום.
למועד ההקלטה
אנחנו משתמשים בתשתיות
של runpod לתמלול.
וזאת אומרת שם רצים
המנועים והמודלים
שלנו באיזושהי תצורת
ספוטים וכל הדבר
הזה.
אנחנו משלמים בין
10 ל-20 אגורות לכל שעת
אודיו.
זאת אומרת זה סך
הכל התהליך עצמו די

(36:45):
זול.
זה כלום כאילו במובן
האם יש לך שעה אחת
וזה אם זה יוצא מהכיס
שלך ואתה מטפל בעשרת
אלפים או עשרים אלף
שעות בחודש אז הסכומים
מתחילים להתגלגל.
אבל הבנו שהשירות
הזה הוא סופר שימושי
זאת אומרת ברמה של
כאילו אנשים שכנראה
עובדים בזה או שכנראה
מתעסקים בזה יכולים
לבקש לתמלל עשרות
ומאות שעות בכל חודש.
ובעצם אנחנו ניסינו

(37:05):
למצוא לדבר הזה פתרון
כי מצד אחד לא רוצים
לסגור לא רוצים לסגור
את התמלול החופשי
הזה כי זה שירות חשוב.
ומצד שני לא רצינו
להפוך את זה לשירות
פרימיום ולגבות כסף
ולהתחיל כאילו בסוף
כשאתה מתחיל לגבות
כסף נוצרות ויש לקוחות
ויש משתמשים.
מערכת היחסים הזאת
נהיית יותר מורכבת
ואנחנו חיפשנו דרך

(37:26):
לרבע את המעגל הזה.
ויאיר הוא בעצם בנה
איזה סוג של מסלול
עוקף מסלול עוקף
לאירוע הזה שבעצם
מאפשר לכל מי שרוצה
היום דרך הממשק שלנו
בכמה קליקים להיכנס
לrun pod ששם אנחנו מרצים
לקנות טוקנים שלהם
מולם זאת אומרת טוקנים
להרצת שירותים אצלם.
ואת הAPI key הזה להכניס

(37:46):
אצלנו במערכת.
ואז בעצם בן אדם
שנכנס למערכת ומשלם
את המינימום שזה
לדעתי 10 דולר.
יכול להריץ אצלנו
עד שבעצם נגמר זאת
אומרת אנחנו מריצים
את הטילול על חשבונו
באופן בלתי מוגבל.
מי שלא משלם אנחנו
נכון להיום מגבילים
לשלוש שעות שלוש שעות
כל שבוע שהם ככה
מתמלאות מחדש.
אבל שוב זה לא שירות
שאנחנו נותנים בתשלום

(38:08):
זה בעצם אופציה
שאנחנו פתחנו לשלם
לספק ענן שלנו כדי
שאנחנו נוכל להריץ
על חשבון אותו מתמלל
מתמללת את התוכן
שלו ברמה של אלפי
שעות כאילו גם.
רק שיהיה לנו רגע
סדרי גודל אני לא
יודע אם אתה מסכים
לשתף אבל כמה
שעות בטוטאל יש לכם
חודשיות של של תמלול
עשרות אלפים.

(38:29):
עשרות אלפים זאת
אומרת המערכת עובדת
כל הזמן למרות שזה
ספוטים זה נשמע שזה
בעצם עובד כל הזמן.
נכון.
ובכל מקרה כאילו מי
שלא רוצה לגשת לענן
אנחנו למשל שוב גילוי
נאות הפודקאסט כמו
שאמרתי מתומלל על
ידי על ידי עברית
AI.
אבל אני עושה את
זה לוקאלית זאת
אומרת אני הורדתי
את המודל של האגינג
פייס אני מריץ

(38:49):
אותו על המחשב שלי
ובעצם שום דבר לא
יוצא החוצה זאת
אומרת שלא חייבים
לפנות
אליכם אלא אפשר
לארח את המודל או
על המחשב הוא מספיק
אם הוא מספיק חזק
או אפילו על את הצורה
של הענן כמו אצלכם.
לגמרי בעצם אנחנו
רצינו לפתוח כל הסיפור
של תמלול הרבה פעמים
הוא כרוך בסוגיות
מאוד רגישות של פרטיות.

(39:10):
יש לאנשים הקלטות
של מפגשים של פגישות
עבודה בנושאים סודיים
עסקית יש סודיות רפואית
יש סודיות של בריאות
הנפט כל התחומים
האלה נמצאים בהקלטות
אפילו שיחות טלפון
בין בני זוג לא תמיד
זה משהו שאתה רוצה.
לעלות לצד ג' לתמלול
אז דבר שאני צריך
להגיד אנחנו לא משתמשים
בכלל בדאטה ומוחקים
אותו מיד.
באתי לשאול זהו

(39:30):
באתי הרמת לי להנחתה
פה לשאלה.
הנחתי וגם מה שנשלח
בוואטסאפ וגם מה שעולה
בממשק הוא נמחק מיד.
לפעמים שאומרים
לנו תמללתי משהו וזה
נמחק לי אתם יכולים
להוציא את זה מההיסטוריה
לא אנחנו לא יכולים.
גם לפי מדיניות הפרטיות
שלנו שמפורסמת וגם
תכלס בקוד ברגע שחוזר
אליך הטקסט גם ההקלטה

(39:51):
וגם הטקסט נמחקים.
המידע היחיד שאנחנו
שומרים זה לוגים
של כאילו מה היה
האורך של הקובץ אודיו
שעלה ובאיזה שעה
זה היה ומאיזה מספר
זה נשלח או משהו
בסגנון הזה זאת
אומרת לא שום מידע
מעבר לגבי התוכן.
אבל עדיין זה בטח
לא פרקטיקה מומלצת
למי שיש לו תוכן רגיש
זאת אומרת אני
מאוד ממליץ למי שיש
לו מידע רגיש מכל
סוג להשתמש בזה לוקאלית.

(40:13):
עכשיו את המודל אם
אפשר להריץ לוקאלית
בכל מיני דרכים אפשר
להוריד את המודל ולהריץ
אותו בהאגינג כאילו
להוריד את המודל
בהאגינג כדי להשתמש
בו.
באיזשהו שלב
אנחנו גם שחררנו חבילה
שקוראים לה עברית
pip install עברית חבילת
פייתון שאתה יכול
להתקין אצלך והיא
בעצם חושפת לכל
האפשרויות גם להריץ
אצלך מקומית על CPU

(40:34):
על GPU אם יש לך איזשהו
תמריץ על איזשהו שרת
מרוחק או בעזרת API
key להריץ את זה גם
על שרת שאצלנו.
והוא מאפשר לך גם
את התמלול גם את
לקבל את התזמונים
של כל השירותים
שמתאפשרים לך בהרצה
במישרקות ואתה
יכול להריץ אותם
אצלך בכל סביבה שהיא.
מבחינתנו זה מאוד
חשוב.
ולכן אני משער שמשתמשים
במודל הזה הרבה

(40:55):
יותר מאשר עשרות
אלפי שעות בחודש שזה
מה שאנחנו רואים בווב
במקומות פרטיים
במקומות עסקיים
במקומות רגישים
מכל מכל הסוגיות.
יש לך סטטיסטיקה כמה
הורדות היו למודל
מ-HuggingFace?
כן יש יש אלפי הורדות.
כן אבל קשה לדעת מזה
כמה באמת משתמשים
בזה כמה עוד יורץ
דרך זה זאת אומרת.
לא ברור. אבל אבל

(41:16):
אלפי הורדות זה
אומר שהוא הגיע
לאלפי אנשים/ארגונים
שזה לא משהו כזה.
פרטי שאף אחד לא
מכיר.
יש לו חשיפה.
כן.
לא נשאר לנו עוד
הרבה זמן אני חושב
שיהיה מאוד מעניין
לשמוע מה התוכניות
לעתיד. זאת אומרת
כבשתם את הפסגה או
שיש עוד אתגרים ומקומות

(41:38):
שאפשר לשפר?
אז יש כמה מקומות
וכיוונים שאנחנו
היינו שמחים ורוצים
לשפר אותם זאת
אומרת.
בשכבת הדאטה עוד
יש כמה סוגים של נקרא
לזה דומיינים או תתי.
ייצוגים של דברים
ספציפיים שאנחנו
רוצים להתחזק בדיברנו
על רפואה מההתחלה
אז אולי זה סגירת
מעגל לעכשיו.

(41:58):
בסוף אנחנו רוצים
דאטה מהדומיין הרפואי
או מדומיין משפטי
או מדומיינים ספציפיים
שבהם הסיפור של ז'רגון
מאוד משמעותי.
והוא קריטי להבנה
של מה שקורה. זאת
אומרת רוצה שמפגישה
רפואית יצא השמות
של התרופות והבדיקות
במדויק למשל.
אנחנו גם רוצים להגדיל
ולהרחיב את הייצוג
שיש בדאטה.
זאת אומרת בין אם
זה קולות של ילדים

(42:18):
שאנחנו יודעים שמודלי
תמלול הם כושלים
עליהם ובסוף כשאנחנו
מדברים על הנגשה
למשל לילדים כבדי
שמיעה.
אז זה דבר קריטי
או לאנשים מבוגרים
שלא שומעים את הילדים
שלהם אנחנו רוצים
שהתמלול יצא טוב.
גם להפך כשאנחנו
מדברים על תמלול
של אנשים מבוגרים
מאוד או של תמלול
עם אנשים ואנשים
בעלי מבטא זה מה
שאנחנו רוצים להשתפר
ולהצליח שם.

(42:41):
זה גם ברמת הדאטה
וגם ברמת המודלים
שמבוססים על זה.
היינו רוצים מודלים
לאמן מודלים שגם
יודעים לייצר תמלול
בזמן אמת.
זאת אומרת שאתה בזמן
פגישה כמו עכשיו
אתה מקבל את הכתוביות
בלייב.
וויספר המקורי
הוא לא תומך בתצורת
סטרימינג הזאת וזה
דורש כל מיני שינויים
ואימונים של מודל
וזה משהו שאנחנו נעבוד
עליו ונשפר אותו.
מתכננים לעבודה ומי
שרוצה לעבוד על משהו

(43:01):
מהדברים שאני
אומר אז גם מוזמנים
ליצור איתנו קשר.
כנ"ל לגבי מודלים
יותר קטנים בסוף נגיד
ויספר גם המודל הכי
קטן של ויספר היכולת
שלו לרוץ על מכשירי
קצה היא קטנה.
חלק מאיתנו משתמש
במכשירי קצה כאילו
בשטח נכון כאילו
בטלפון שלנו והיינו
רוצים לעבוד גם שם.
זה אימון של מודלים
מסוג אחר ויספר והמודלים
הדומים לו לא רצים

(43:22):
ככה ולא לוקאלית
על מכשירי קצה.
וגם להיכנס או לתמוך
במאמצים בתחום שלא
דיברנו עליו בכלל
זה התחום של טקסט
וספיץ' בעברית.
מודלים שיודעים
לקרוא ולדבר בעברית
בשביל לייצר כל מיני
agentים שיחתיים למיניהם
כן שיכולים לעבוד.
יש שאלה קטנה אפשר
להוסיף להם מודלים
שהם יגידו איזה מילים

(43:44):
הם לא בטוחים בהם
איזה דברים לא בטוחים.
למשל ז'רגון רפואי
יש שם של תרופה במקום
שהוא ימציא הוא יגיד
לרופא פה תמלא את
השם של התרופה כי
לא הבנתי אותה.
אפשרות לעשות דבר
כזה בכלל?
יש כל מיני סוגים
של גישות איך לפתור
את בעיית הז'רגון
בעולמות האלה.

(44:04):
ויש כל מיני סוגים
של גישות להבין מה
רמת ה-uncertain של המודל
זאת אומרת המודלים
האלה מוצאים סוג
של רמת ביטחון שיש
להם על כל מילה בחיזוי.
על כל טוקן שהם פולטים
יש איזשהו רמת חיזוי.
אבל זה עדיין נקרא
לזה סוגיה שמנסים
להבין עד כמה אתה
יכול להסתמך על הדברים
האלה.
אבל ויש כל מיני
מקום כל מיני פתרונות
גם יש גם חברות בארץ

(44:24):
וגם חברות בחו"ל
שמנסים להבין איך
אני לוקח מודל קיים
שעובד טוב.
ועושה לו סוג של בוסטינג
לכיוון של רשימות
מילים שיותר מעניינות
אותי.
יש מילים שאני רוצה
להיות בטוח לגביהם
או שאני רוצה לא
לפספס בהם איך אני
איכשהו עוזר לדחוף
את המודל לאזורים
של המילים האלה בלי
לאמן את כל המודל
מחדש כי אני לא
רוצה לשכוח את הכל

(44:45):
אני רק רוצה.
עבור האוצר מילים
העסקי שלי הרפואי
בנקאי מה שזה לא
יהיה לצלוף שם
יותר טוב ולא לטעות
שם תערויות קריטיות.
אז יש כל מיני גישות
לגבי זה ואנחנו
אנחנו עדיין לא שם.
טוב.
קודם כל תודה רבה
מאוד מאוד מאוד מעניין
אני חושב שזה
אנחנו התחלנו את
הפודקאסט שלנו לפני

(45:05):
שהאיי איי כבש אותנו
מכל הכיוונים בפודקאסט
שהתעסק בנושא של קוד
פתוח וקהילות אני
חושב שזו דוגמה
מאוד מאוד מעניינת
איך מחברים את הדברים
יחד.
איך אנחנו מדברים
גם על איי איי אבל
גם על קהילה בעצם
אני זה זה אתם מובילים
את הפרויקט הזה
אבל עם המון המון
עזרה.
מקהילה זה לא נראה
כמו משהו ששלושה

(45:26):
אנשים יכולים לעשות
לבד.
אנחנו כבר ארבעה
אבל גם לא ארבעה.
ועם ערך לנו לדוברי
העברית ערך מעולה
כאילו זה זה אנחנו
לא בלי להיכנס לפוליטיקה
על משק אוטרקי ודברים
כאלה אבל אבל בעברית
אין לנו ברירה
אנחנו.

(45:47):
אחרים לא יתמכו בנו
בעברית כמו שאנחנו
יכולים לתמוך בעצמנו
כי כי זה לא מעניין
אף אחד זה מעניין
רק אותנו.
אז באמת מעניין.
אני מניח שאם מישהו
מתעניין בכם עכשיו
כל מה שהוא צריך
זה לכתוב בגוגל עברית
נקודה איי איי והוא
מן הסתם יגיע ללינקים
המעניינים הזה לכל

(46:08):
מי שמאזין לנו ורוצה
להגיע לפרויקט.
כל אספקט שדיברנו
פה.
להשתמש לתרום להוריד
וואטאבר.
אני אני גם רוצה קודם
כל אני גם רוצה להודות
לך יניר גם לא רק
על זה שבאת ולהתארח
אצלנו.
באמת על הפרויקט
הזה הוא באמת באמת

(46:29):
תורם שוב אמרתי
אנחנו באופן אישי
משתמשים בזה אני
מכיר עוד.
הרבה זה באמת פרויקט
משנה משנה תעשייה
ותרומה ענקית לקהילה.
אז אנחנו כמו נשים
את כל הלינקים גם
אצלנו בתיאור הפרק
מי שירצה ככה לעזור
גם בין אם זה למערכת
רסיטל אם היא עדיין
קיימת או כל מיני

(46:49):
דברים כאלה בשביל
לעזור לסייע גם לפנות
אליכם.
אז זהו אחלה פרק
הרמת בשביל.
בשביל פרק תחילת עונה
לא יודע מפה מה רק
מגבירים חזק.
יש לנו ככה ברשימה
של האורחים לעונה
הזאתי באמת רשימה
סופר סופר מעניינת
של אורחים חלקם כבר

(47:10):
אישרו חלקם לא אז
שווה להאזין.
משהו נוסף שבקשה קטנה
שיש לי למאזינים
שלנו.
גיליתי שהרבה מאזינים
אבל לא משתפים את
זה שהם מאזינים
ממש אוהבים את הפודקאסט
ושולחים לי כל הזמן
הודעות לא יודע איפשהו
שם בעונה 2.
אני מקבל ללינקדאין
שלי מלא מלא הודעות
של אנשים שמאזינים
לפודקאסט וזה אבל

(47:30):
לא משתפים את זה
ואז כאילו זה לא
לא מספיק מופת.
אז כמובן נשמח לשיתופים
וכולי וכולי וסטארים
וכאלה זה מקדם את
הפודקאסט אז.
אז תודה רבה תודה
רבה יניר תודה רבה
ג'וש.
גם הפרק הזה יתומלל
בעזרת עברית.
יתומלל ודאי ודאי.
יתומלל.

(47:52):
תודה רבה ושנה טובה.
שנה טובה.
Advertise With Us

Popular Podcasts

Stuff You Should Know
CrimeLess: Hillbilly Heist

CrimeLess: Hillbilly Heist

It’s 1996 in rural North Carolina, and an oddball crew makes history when they pull off America’s third largest cash heist. But it’s all downhill from there. Join host Johnny Knoxville as he unspools a wild and woolly tale about a group of regular ‘ol folks who risked it all for a chance at a better life. CrimeLess: Hillbilly Heist answers the question: what would you do with 17.3 million dollars? The answer includes diamond rings, mansions, velvet Elvis paintings, plus a run for the border, murder-for-hire-plots, and FBI busts.

Dateline NBC

Dateline NBC

Current and classic episodes, featuring compelling true-crime mysteries, powerful documentaries and in-depth investigations. Follow now to get the latest episodes of Dateline NBC completely free, or subscribe to Dateline Premium for ad-free listening and exclusive bonus content: DatelinePremium.com

Music, radio and podcasts, all free. Listen online or download the iHeart App.

Connect

© 2025 iHeartMedia, Inc.