薩克森-安哈爾特州立圖書館的報紙庫房
報紙包括著對于一個時代的政治、經(jīng)濟、文化和社會的重要見解,是與歷史相關(guān)的所有學(xué)科的重要信息來源。德國薩克森-安哈爾特州立圖書館是德國最大的報紙存放地之一:包括1945年前出版的1300多種報紙,其中大約800種來自德國中部。
這些報紙對于當今德國的研究有著重要的意義。舉例來說,在研究德國中部的經(jīng)濟和社會史時,《總督》和《薩勒日報》具有非常重要的意義。因此在上個世紀90年代,出于再生性保護的考慮,薩克森-安哈爾特州立圖書館對館藏報紙進行了縮微膠片拍攝,以滿足讀者的使用。然而到了今天,讀者不再滿足于用縮微膠片閱讀器查閱報紙,而希望采用一種更加智能和高效的方式。
因此,從2019年開始,由德國研究基金會(Deutsche Forschungsgemeinschaft-DFG)贊助,薩克森-安哈爾特州立圖書館在賽數(shù)公司的幫助下,啟動了《總督》《薩勒日報》等報紙的數(shù)字化項目。在兩年的時間內(nèi),一百萬頁的報紙得以數(shù)字化,并通過網(wǎng)絡(luò)免費向公眾開放。所有這些數(shù)字化的報紙都可以像Google搜索一樣,以全文檢索的形式簡單快速地找到目標內(nèi)容。
為了實現(xiàn)這個目標,圖書館使用了先進的文本識別軟件(OCR)Tesseract。借助AI學(xué)習(xí),該軟件能夠正確區(qū)分報紙上看起來很相似的字母,并學(xué)習(xí)識別不同的字體。然而,要充分發(fā)揮文字識別軟件的作用,對圖像質(zhì)量的要求很高。這一問題通過使用賽數(shù)的兩款掃描儀得以解決。
賽數(shù)OS14000掃描儀掃描幅面最大可達超A0,適用于掃描大幅面字畫、報紙、圖紙、地圖等,其高精度、真彩色掃描鏡頭可以獲得極高的色彩還原度,完美再現(xiàn)原件的所有可見細節(jié)。OS14000的掃描速度相較于同類型掃描儀有很大優(yōu)勢,A0幅面的文檔只需小于6.5秒便可完成掃描。此外,其人性化的設(shè)計為用戶提供了安全、可靠并符合人體工程學(xué)的操作環(huán)境,從而進一步提升了工作效率。
工作人員使用賽數(shù)OS14000掃描儀掃描報紙
對于館藏的大量縮微膠片,則使用賽數(shù)OM1800縮微膠片掃描儀進行數(shù)字化處理。OM1800搭載新研發(fā)的攝像機和照明系統(tǒng),可提供高達600dpi的真實光學(xué)分辨率和至少12位灰度,從而以高質(zhì)量將縮微膠片有效地數(shù)字化,數(shù)字化結(jié)果的文字識別準確率極高。OM1800還可以自動對齊各個頁面,并將頁邊距減小到最小,以優(yōu)化存儲空間的使用。
使用賽數(shù)OM1800縮微膠片掃描儀對縮微膠片進行數(shù)字化處理
賽數(shù)掃描儀和文本識別軟件的結(jié)合提供了出色的結(jié)果,精度達到95%以上,這個成績對于歷史報紙文獻來說是突破性的。