דלג על פקודות של רצועת הכלים
דלג לתוכן ראשי
הרשמה

היבטים טכנולוגיים

הטכנולוגיות העומדות בבסיס הפרויקט

1 — טכנולוגיות סריקה:

סריקת העיתונים המופיעים באתר נעשתה מאחד משני המקורות האפשריים: נייר העיתון המקורי או מיקרופילם, כאשר ההעדפה היא תמיד למצוא את העותק הטוב ביותר מבחינת איכות, והשלם ביותר מבחינת מצאי של גיליונות. זו משימה לא פשוטה, מכיוון שעיתונים היסטוריים נמצאים בתהליך מתמיד של שחיקה והתפוררות, והאוספים כמעט תמיד חלקיים בשלמותם. במובן הזה, מאמצי הסריקה של חומר ארכיוני בכלל, ועיתונים היסטוריים בפרט, הינם חלק ממשימה חשובה של הצלת מידע, שאחרת עלול לאבד לנצח. הבחירה בין צילום נייר עיתון לסריקה ממיקרופילם נעשתה בכל כותר לפי שיקולים של מצב החומר ושלמות האוסף — עם מתן עדיפות לסריקה ממקור הנייר, ככל שהדבר היה אפשרי.

כל החומרים המופיעים באתר נסרקו/ צולמו במרכז הדיגיטציה של הספרייה הלאומית במיוחד לצורך פרויקט זה. העיתונים שנסרקו ממיקרופילם מופיעים בשחור-לבן (בינארי) או בגווני אפור. במקרים בהם צילמנו/ סרקנו חומר ממקור נייר שהיה צבעוני, השתדלנו לצלם בצבע כדי לשמור על נאמנות מרבית לחומר המקורי.

איכות הסריקה/ צילום של החומרים הנכללים בפרויקט היא של 300 DPI (בחלק מהחומרים גם 400 DPI).

החומרים שמקורם בנייר עיתון נסרקו/ צולמו במצלמת Z645 PENTAX, סורק PANASONIC KV-S5055C , ומצלמת CANON 5D.

החומרים שמקורם במיקרופילם נסרקו בסורק מיקרופילמים Eclipse by Nextscan.

לאחר הסריקה/ צילום כל החומר עבר QA קפדני ועיבוד גרפי מינימלי (לפי הצורך).

2 — פלטפורמת הנגשת החומרים והקלדה ידנית של כותרות ושמות מחברים:

בפרויקטים רבים של עיתונות היסטורית שקיימים ברשת כל החומרים הסרוקים עוברים סריקת טקסט בטכנולוגיית זיהוי כתב— Optical Character Recognition) OCR). בפרויקט זה החלטנו, לאחר ניסיונות רבים עם תוכנות OCR שונות, לא להשתמש בטכנולוגיה זו. הסיבה היא שתוצאות ה-OCR המתקבלות בשפה הערבית נמוכות למדי (30-20% הצלחה). אי לכך — אין בהן די תועלת לצרכי ביצוע חיפושים בטקסט. כדי להתמודד עם המכשול הזה בחרנו בשיטה המשלבת הקלדה ידנית של כותרות המאמרים ושמות המחברים כדי לאפשר לבצע חיפוש ברמת כותרת מאמר/ שם מחבר. שיטה זו אינה מיטבית — בוודאי בהשוואה ל-OCR מלא — אך יתרונה הוא שהיא מאפשרת לעקוף במידת מה את קשיי ה-OCR בערבית.

ההקלדה הידנית של הכותרות ושמות המחברים הציבה בפנינו דילמה: מה עושים כאשר מילה מסוימת הודפסה עם "טעות" — שייתכן וכלל איננה טעות, אלא רק שיטת איות שונה שהייתה מקובלת אז. ההחלטה העקרונית אותה קיבלנו הייתה לא לתקן שום "טעות", אלא להקליד בצורה מדויקת את מה שהודפס בטקסט המקורי. לדבר זה יש השפעה על תוצאות החיפוש כמובן, ולכן, אם לא תמצאו את מבוקשכם, כדאי לשחק קצת עם אופן כתיבת מילת החיפוש, והדבר תקף במיוחד במילים שמקורן לא בערבית (לדוגמא — איות של ايتالية במקום ايطالية).

לאחר הסריקה, קבצי התמונה מחוברים והופכים לגיליונות דיגיטליים בעזרת הטכנולוגיה של חברת Olive Software (בשלב זה מתבצעת גם ההקלדה הידנית). תוכנה זו מפיקה גליונות שנטענים לתוך מערכת OLIVE APA, המאפשרת גישה נוחה לעיתונים במחשב/ מכשירים ניידים, עם אפשרויות דפדוף וחיפוש מתקדם (לעזרה והוראות שימוש במערכת החיפוש אנא ראה — "עזרה למשתמש").