על אודות האתר > היבטים טכנולוגיים

היבטים טכנולוגיים

הטכנולוגיות העומדות בבסיס הפרויקט

שתי טכנולוגיות עיקריות עומדות בבסיס מהפכת המחשוב של טקסטים, קרי, בהפיכת חומר מודפס על נייר לקובץ דיגיטאלי (או, כפי שהיא מכונה בשפה מקצועית – דיגיטציה של טקסטים):
  1. טכנולוגיות סריקה
  2. טכנולוגיות זיהוי כתב (OCR - Optical Character Recognition)
סריקה משמעותה 'צילום' של חומר מודפס והפיכתו לקובץ תמונה פשוט. במובן זה סריקת ציור וסריקת טקסט מניבה את אותו תוצר מפני שהמחשב אינו יכול להבחין שבמקרה השני מדובר בטקסט. לשם כך קיימת טכנולוגיית זיהויי הכתב (OCR) שמאפשרת להפוך קובץ תמונה שקיים בו מלל לקובץ טקסט פשוט בר חיפוש. זה נעשה באמצעות זיהוי דפוסים של נקודות בתמונה כאותיות בתוך מילים. שתי הטכנולוגיות הללו (סריקה וזיהוי כתב) הן וותיקות יחסית: טכנולוגיית הסריקה יושמה בהצלחה עוד בסוף שנות ה-50 של המאה ה-20 ואילו בטכנולוגיות של זיהוי כתב נעשה שימוש מסחרי משנות ה-60 של אותה מאה. אך שתי הטכנולוגיות התפתחו רבות במהלך השנים והתוכנות המיישמות אותן יודעות היום להתמודד עם מגוון גדול של שפות ושל גופנים (סוגי האותיות). כמו כן אחוז הזיהוי לגבי כל שפה ושפה עלה בצורה משמעותית בשנים האחרונות, ובהינתן שאיכות החומר המקורי והסריקה הם טובים – ניתן להגיע לזיהוי של למעלה מ-90 אחוז.
 
במעבר מדיגיטציה של טקסטים פשוטים (כגון מכתבים או מסמכים רשמיים) לעיתונים עולה חשיבותה של טכנולוגיה שלישית:
  1. טכנולוגיית סגמנטציה
סגמנטציה משמעותה חלוקת העמוד הסרוק למקטעים הלוגיים השונים שמרכיבים אותו. בפרט, כשמדובר בעמוד עיתון סגמנטציה היא חלוקת הדף לכתבות השונות הקיימות בתוכו. ללא חלוקה זו עמוד העיתון מהווה את יחידת החיפוש הקטנה ביותר וסידור תוצאות חיפוש ייעשה על פי כמה פעמים המושג אותו חיפשנו מופיע בתוך העמוד. מובן מאליו שזוהי שיטה בעייתית לסידור תוצאות מכיוון שבעיתון יחידת המידע הבסיסית אינה העמוד אלא הכתבה, שעשויה לקחת חלק קטן מהעמוד ואף עשויה להמשך ליותר מעמוד אחד. בזכות טכנולוגיית הסגמנטציה, תחום בו חברת "אוליב-תוכנה" היא מהמובילות, יכול המשתמש לקבל תוצאות חיפוש בצורה של הכתבות המקוריות ומידת הרלוונטיות של כל כתבה למילים עליהן בוצע החיפוש.
 

 

כיצד הטכנולוגיות מיושמות באתר 'עיתונות יהודית היסטורית'

סריקת העיתון נעשית מאחד משלושת המקורות האפשריים: נייר, מיקרופילם או מיקרופיש, כאשר המאמץ הוא למצוא את העותק הטוב ביותר מבחינת איכות הכתב, והשלם ביותר מבחינת מצאי של גיליונות. זוהי אינה משימה קלה כלל מכיוון שעיתונים נמצאים בתהליך מתמיד של שחיקה והתפוררות. במובן הזה מאמצי הסריקה של חומר ארכיוני ובפרט עיתונים היסטוריים הוא חלק ממשימת הצלה של המידע, שאחרת עלול לאבד לנצח.
 
שתי הטכנולוגיות הנוספות – הזיהוי והסגמנטציה – פועלות כאשר תוכנת Active Paper מעבדת את העמודים הסרוקים לכדי גרסאות אלקטרוניות של העיתון. שלב זה שהוא ברובו אוטומטי כולל זיהוי כל המרכיבים של הכתבה, שהיא כאמור היחידה הבסיסית של העיתון:
  
כותרת
כותרת משנה
•​ גוף הכתבה
•​ איור או תמונה מלווים

 

בתוך כל מרכיב מזוהה הכיתוב שלו ולכיתוב זה ניתנת הרלוונטיות המתאימה. כך לדוגמא כאשר אנחנו מחפשים ערך מסוים (כגון שם) המערכת תיתן עדיפות לכתבות בהן אותו ערך מופיע בכותרת על פני כתבות אחרות בהן אותו ערך מופיע בגוף הכתבה.
 
התוצר של שלב העיבוד הוא אוסף רב של קבצים שמהווים את הגרסה האלקטרונית של הפרסום. כל כתבה מורכבת מקבצי תמונה של הכתבה המקורית ומקבצי טקסט של המלל המזוהה על ידי ה-OCR. מה שרואה המשתמש כאשר הוא צופה בכתבה הוא למעשה תמונה שלה, ואילו המלל המזוהה מוצב 'מאחורי' אותה תמונה. בהצגת העיתונים נעשה שימוש בטכנולוגיה של XML) Extensible Markup Language) מה שמאפשר נדידה עתידית של החומר לפלטפורמות אחרות.
 

 

מגבלות הטכנולוגיה

הגם ששלוש הטכנולוגיות העיקריות שנעשה בהם שימוש (סריקה, OCR וסגמנטציה) הן טכנולוגיות בשלות ואף ותיקות, הן אינן מושלמות. הן הזיהוי של הטקסט והן הזיהוי של הסגמנטציה אינם ברמה של 100% וככל שאיכות החומר הולכת ויורדת כך יורד אחוז הזיהוי. מכיוון שאתר 'עיתונות יהודית היסטורית' עוסק בעיתונים מהעבר, ולפעמים אף מהעבר הרחוק, אנו נאלצים להתמודד עם תופעות שונות שמאיימות להכשיל את תהליך הזיהוי. תופעות כגון איכות דפוס ירודה (המאפיינת פרסומים קדומים), נייר מצהיב, מריחות בהדפסה המקורית, גופנים ייחודיים לפרסום, עמודים קרועים, עמודים מקושקשים ואף עמודים מכורסמים על ידי מזיקים.
 
מגבלות הטכנולוגיה המצטרפות למגבלות חומר הגלם איתו אנו עובדים מתבטאות בפועל בשתי תופעות בהן עשוי להיתקל המשתמש: טעויות זיהוי של מילים וטעויות סגמנטציה. טעויות זיהוי של מילים מופיעות או בצורה של מילים קיימות שלא זוהו, או בצורה של מילים שזוהו בצורה שגויה. במקרה הראשון המשתמש יראה שקיימת מילה מסוימת בכתבה אך בחיפוש היא לא עולה. במקרה השני המשתמש יראה שהמילה שזוהתה אינה זהה למילה שהוא חיפש. שני המקרים הם תופעות ידועות וצריכות להילקח בחשבון על ידי המשתמש. בפועל, למרות מגבלה זו, הסיכוי למצוא ערכים אינו נפגע בצורה משמעותית מפני שלרוב ערך יופיע יותר מפעם אחת בכתבה ולפיכך גם אם נעשתה שגיאת זיהוי בפעם הראשונה שהערך מופיע בכתבה, ישנם סיכויים טובים שבפעם השנייה הזיהוי יצליח והכתבה תעלה ברשימת תוצאות החיפוש.
 
התופעה השנייה שהמשתמש עשוי להיתקל בה היא טעויות של סגמנטציה. כאן הדבר יתבטא באחד משני אופנים: זיהוי של כמה כתבות יחד ככתבה אחת, או זיהוי של כתבה אחת ככמה כתבות שונות. ככלל, טעויות סגמנטציה הן פחות קריטיות מטעויות זיהוי מילים מכיוון שהן אינן מונעות מציאת כתבות המתאימות למושג שמחפשים אלא רק עשויות לשבש את סדר התוצאות. נוספת לכך אי נוחות מסוימת הנוצרת מהצורך לגשת לעמוד המלא של העיתון ולזהות את המשך הכתבה. ככלל, אתר 'עיתונות יהודית היסטורית' עושה את מירב המאמצים כדי לצמצם כמה שיותר הן את טעויות הזיהוי והן את טעויות הסגמנטציה.
 
לסיכום, יש לזכור שהחיפוש בעיתונים נעשה בסביבה של טקסט חופשי, מה שאומר שכאשר ערך מסוים אינו מעלה תוצאות חיפוש או מעלה מספר קטן שלהם, יש סיכוי סביר שהאיות של הערך אינו מדויק. דבר זה עשוי להתרחש בגלל טעות פשוטה באיות, או בגלל שבעבר אייתו את הערך בצורה שונה, עוד על כל בהיבטים התוכניים

 

 קישורים מהירים

 סטטיסטיקות האתר

מספר הכותרים:  316
​מספר הגיליונות:  242,774
מספר העמודים:  2,303,366
טווח השנים:      2014-1783

 חדשות האתר

  • 01.10.2013, יום שלישי
    העיתון אונזער עקספרעס מתווסף לאתר

    כותר חדש מצטרף לאתר: אונזער עקפרעס. העיתון יצא לאור בווארשה בין השנים 1926-1939. אונזער עקספרעס היה עיתון עממי וקנה לו שם של "צהובון". זהו העיתון ה-45 המתווסף לאתר. המהדורה האלקטרונית הנוכחית מכילה, לפי שעה, 33,005 עמודים.

  • 12.05.2013, יום ראשון
    העיתון "דער מאמענט" מתווסף לאתר

    דער מאמענט פורסם בין השנים 1910-1939. זהו העיתון ה-36 המתווסף לאתר. המהדורה האלקטרונית הנוכחית מכילה 22,423 עמודים.

  • 12.05.2013, יום ראשון
    העיתון "העם" מתווסף לאתר

    העם, שבועון פובליציסטי-ספרותי שיצא לאור במוסקווה בין השנים 1916-1918. זהו העיתון ה- 37 המתווסף לאתר. המהדורה האלקטרונית הנוכחית מכילה 1178 עמודים.

  • 17.01.2013, יום חמישי
    14,556 דפים חדשים נוספו לאתר

    14,556 דפים חדשים נוםפו לאתר JPRESS מהעיתונים הבאים: The Occident, חרות, היינט. סה"כ דפים באתר: 885,283.

  • 14.01.2013, יום שני
    העיתון "הצופה" מתווסף לאתר

    יצא לאור בתחילה בירושלים ואחר כך בתל אביב במשך 71 שנה מ-1937 ועד 2008. זהו העיתון ה-35 שמתווסף לאתר, המהדורה האלקטרונית מכילה כעת 21,210 עמודים.

  • 11.01.2013, יום שישי
    העיתון "המצפה" מתווסף לאתר

    כותר חדש מצטרף לאתר: המצפה . המצפה הינו שבועון ציוני-דתי, שיצא לאור בקרקוב (פולין) בין השנים 1904-1915, ובין השנים 1917-1921. זהו העיתון ה-34 המתווסף לאתר. המהדורה האלקטרונית הנוכחית מכילה 4767 עמודים

  • 04.01.2013, יום שישי
    העיתון "המזרחי" מתווסף לאתר

    ביטאונה של תנועת המזרחי בפולין, התפרסם בוורשה בשנים 1918-1924. זהו העיתון ה-33 שמתווסף לאתר, המהדורה האלקטרונית מכילה את כל השנים בהן התפרסם העיתון, סך הכל 2588 עמודים.