אופס! תקלה בזיהוי פנים אוטומטי (ובעשר שנים של מחקר)

 

בעשור האחרון, ובמיוחד אחרי אירועי ה-11 בספטמבר, הפך תחום זיהוי הפנים האוטומטי לאחד מתחומי המחקר האינטנסיביים ביותר בראיה ממוחשבת בפרט, ובמדעי המחשב בכלל. בעשרת השנים האחרונות בלבד פורסמו מעל 3500(!) מחקרים שונים המציגים אלגוריתמים ושיטות שונות לזיהוי פנים אוטומטי, והיד עוד נטויה.

 

המטרה של תוכנת זיהוי פנים היא לקשר באופן אוטומטי בין תמונה של אדם מסויים לבין תמונה אחרת של אותו אדם הנמצאת בבסיס הנתונים שלה. בכדי למדוד את היכולות של האלגוריתמים השונים ולהשוות בינהם, נהוג להשתמש בבסיסי נתונים המכילים תמונות פנים של אנשים שונים כך שלכל אדם בבסיס הנתונים יש לפחות שתי תמונות שונות. היעילות של התוכנה נקבעת על פי מידת ההצלחה שלה בהתאמת תמונות שונות של אותם אנשים. במשך השנים התפרסמו מספר בסיסי נתונים כאלה, כאשר הידועים שבהם הם FERET ו FRVT, שהורכבו על ידי NIST (מכון התקנים האמריקאי). העובדה שמדענים שונים משתמשים בדיוק באותם נתונים מקלה מאוד על ההשוואה בין התוכנות השונות, ואכן רוב מוחלט מהמחקרים שפורסמו משתמש בהם כאמצעי עיקרי (ויחיד) למדידת היעילות של האלגוריתמים.

 

כך הלכה רמת הדיוק ועלתה עם השנים (היום היא כבר נושקת ל 100%), המאמרים התפרסמו, הגרנטים זרמו כמים, והחגיגה היתה בעיצומה. עד שיום אחד קם רשע והחליט להרוס את השמחה בשאלה המתבקשת: אם זיהוי פנים אוטומטי הוא כל כך מדוייק, איך זה שאנחנו עדיין הולכים עם מפתח בכיס ולא מחכים שהדלת תזהה אותנו ותפתח לכבודנו מעצמה?

 

ובכן, במאמר שהופיע ב-IJCV, כתב העת המוביל בתחום הראיה המלאכותית, מתואר ניסוי פשוט שמציג פתרון, לפחות חלקי, לשאלה הזאת. בניסוי נחתך רבוע קטן מהפינה השמאלית העליונה של כל תמונה כך ששום חלק של פנים, שיער או בגדים לא הופיע בו. אוסף הרבועים האלה יצר בסיס נתונים חדש שכולו רבועים ריקים וחסרי כל תוכן. למרבה ההפתעה, אלגוריתם לזיהוי פנים שהופעל על בסיס הנתונים הזה הצליח לזהות את התמונות (שהן, כזכור, רבועים ריקים שאין בהם פנים כלל) במידת דיוק גבוהה בהרבה ממידת הדיוק של ניחוש אקראי. בחלק מבסיסי הנתונים מידת הדיוק של זיהוי הפנים (שכלל לא מופיעים בתמונה, כאמור) הגיעה עד ל 100%.

 

איך זה קורה? קשה לדעת בדיוק, אבל ברור שמדובר בבעיה בהנדסה של בסיסי הנתונים הללו. למשל, אם כל התמונות של אותו אדם צולמו ברצף אחד, תוכנה לראיה ממוחשבת יכולה לקשר בין התמונות על פי גורמים שאינם קשורים כלל למבנה הפנים, כגון הטמפרטורה של השבב (CCD) בזמן הצילום, שינויים מזעריים בתנאי התאורה, וכו'.

 

האם עבודה של מאות אנשים במשך שנים ירדה לטמיון? כנראה שלא. סביר להניח שחלק גדול מהאלגוריתמים שפותחו אינם כה רגישים לבעיות הנדסיות בבסיסי הנתונים. למרות זאת, מתבקשת הערכה חוזרת של הביצועים שדווחו במשך השנים, שהיו ככל הנראה אופטימיים מאוד ביחס למציאות.

 

חלק מבסיס הנתונים ששימש לניסוי. מישהו מזהה כאן פנים?

מודעות פרסומת
Post a comment or leave a trackback: Trackback URL.

תגובות

  • עידן  On יוני 2, 2008 at 9:25 am

    זה מזכיר לי בעיות דומות שצצו עם כל מיני אלגוריתמים לרכישת שפה (כל שני וחמישי אנחנו מתבשרים ש"חומסקי טעה", כי לא צריך הנחות מולדות כדי לרכוש שפה). הבעיה העיקרית עם הרבה אלגוריתמים כאלה היא שהם חזקים מדי – הם רוכשים גם בקלות אוספי משפטים שאינם יכולים להיות שפה אנושית כלשהי, ומסוגלים גם לחלץ "כללים" שמפרים את הדקדוק האוניברסלי. זה קצת כמו לזהות פנים על בסיס ריבועים ריקים.

    תודה על הפוסט, אני אוהב את הגישה שלך.

  • ליאור  On יוני 2, 2008 at 10:49 am

    אין לי הרבה ידע בניתוח שפות טבעיות, אבל זה לא מפתיע שמישהו מפתח benchmark שמתאים למה שהוא היה רוצה שיקרה, ולאו דווקא למציאות.

  • טלד  On יוני 2, 2008 at 12:02 pm

    לא הצלחתי למצוא את המאמר המדובר בארכיון IJCV…

להשאיר תגובה

הזינו את פרטיכם בטופס, או לחצו על אחד מהאייקונים כדי להשתמש בחשבון קיים:

הלוגו של WordPress.com

אתה מגיב באמצעות חשבון WordPress.com שלך. לצאת מהמערכת / לשנות )

תמונת Twitter

אתה מגיב באמצעות חשבון Twitter שלך. לצאת מהמערכת / לשנות )

תמונת Facebook

אתה מגיב באמצעות חשבון Facebook שלך. לצאת מהמערכת / לשנות )

תמונת גוגל פלוס

אתה מגיב באמצעות חשבון Google+ שלך. לצאת מהמערכת / לשנות )

מתחבר ל-%s

%d בלוגרים אהבו את זה: