במסגרת תכנית הAI שאושרה בהיקף של מיליונים: הרשות אישרה תמיכה של 5.5 מיליון ₪ ליצירת והנגשת מאגרי מידע בעברית ובערבית שיהוו תשתית למודלי שפה ופיתוחים נוספים

21/08/2022

בין הפרויקטים שנבחרו ישנם מאגרים מוצעים של סאמיט-איי, בתי החולים הממשלתיים, אוניברסיטת רייכמן, הטכניון, אוניברסיטת ת”א והאוניברסיטה העברית

רשות החדשנות, בשיתוף הוועדה לתכנון ולתקצוב (ות”ת), מפא”ת, משרד החדשנות המדע והטכנולוגיה, ומשרד האוצר, מקדמים את יישום התוכנית הלאומית לבינה מלאכותית, דרך המיזם ליצירת תשתית מחקר ופיתוח ויכולות מתקדמות בתחום עיבוד השפה הטבעית (Natural Language Processing – NLP) בעברית וערבית מדוברת.

דרור בין, מנכ”ל רשות החדשנות:  “תחומים משמעותיים כדוגמת רפואה, חינוך ומשפטים, נדרשים בשירותים ומוצרים בשפה המקומית המדוברת. על אף מאגרי המידע הדיגיטאליים הרבים שקיימים בישראל, מדובר בשוק קטן עבור חברות פרטיות, שביכולתן להוציא תובנות בשפות הנדרשות – יכולת הנעוצה בקיומה של תשתית ניתוח והבנייה של המידע. במסגרת התוכנית הלאומית, רשות החדשנות מקדמת את הנחת התשתית הבסיסית דרך הקמה והנגשה של מאגרי המידע הקיימים היום. פעילות זו, יחד עם פעילויות מתוכננות נוספות, יחזקו את הכדאיות לתעשייה ולאקדמיה ובכך יניעו את התאמת שירותים ומוצרים לשפות העברית והערבית.”

הפתרונות והמוצרים הנדרשים לתשתיות NLP בשפות העברית והערבית  הם למשל שירותי תרגום, תיקון טעויות כתיב וטעויות דקדוק, ניבוי מילים במערכות ששולפות מידע, תמצות אוטומטי, סינון אתרי/דואר זבל ועוד. אבן בניין בסיסית עבור כל אלו הינה קיומם של מאגרי מידע בעברית ו/או ערבית מדוברת, אשר יתאפשר על בסיסם פיתוח מודלים ואלגוריתמים המותאמים לאתגרים הייחודיים המאפיינים את השפות הללו.

מחקר ופיתוח מבוססי בינה מלאכותית תלויים באופן מוחלטת בקיומם של מאגרי נתונים איכותיים. ואולם, שלב איסוף והכנת מאגרי המידע מרכז את עיקר המאמץ והעלות בכל פרויקט של בינה מלאכותית. לטובת כך, רשות החדשנות יצאה בקול קורא להקמת מאגרי מידע בעברית ו/או בערבית מדוברת, אשר היה מיועד לחוקרים מהאקדמיה וחברות מהתעשייה.במסגרת הקול הקורא הציעה רשות החדשנות לחברות ולגופי המחקר, סיוע מימוני בשלבי היצירה של מאגרי המידע בתנאי שמאגרים אלו יונגשו בצורה רחבה לקהילת המחקר והפיתוח.

בבחינת המענים לקול הקורא נבחנו הפוטנציאל העתידי הטמון במאגרי המידע המוצעים, ייחודיותם, היקפם, איכותם ומודל השיתוף המוצע עם קהילת המחקר והפיתוח ואושרו הקמתם של 8 מאגרי מידע חדשים. מאגרי מידע אלו יוקמו ויונגשו לציבור במהלך השנה הקרובה. בין הפרויקטים שנבחרו ישנם מאגרים מוצעים של סאמיט-איי, בתי החולים הממשלתיים, אוניברסיטת רייכמן, הטכניון, אוניברסיטת ת”א והאוניברסיטה העברית. המאגרים הנבחרים הינם מתחומים שונים כגון: משפטי, רפואי, כללי, בינוי  המאפשרים ביצוע משימות שונות, כמו תמלול, סכום, זיהוי ישויות, זיהוי סנטימנט. מתוך אמונה שמאגרים אלו עתידים להוות בסיס למחקר ופיתוח משמעותי בתעשייה ובאקדמיה. בכוונת רשות החדשנות לצאת בפעילויות דומות בהמשך להקמת מאגרי מידע נוספים בכדי לאפשר מחקר, ופיתוח מוצרים התומכים בשפות העברית והערבית.