应用案例

赋能现代科研:萨克森-安哈尔特州立大学图书馆利用 Zeutschel 方案数字化历史报纸

2021年01月01日 深度报告

随着图书馆数字化项目的需求不断升级,馆藏保护已不再是唯一目标。萨克森-安哈尔特州立大学图书馆(ULB)通过引入 Zeutschel 专业扫描设备,将珍贵的历史报纸资源转化为高清数字影像,并结合机器学习 OCR 技术实现全文检索,为现代学术研究提供了深度挖掘历史数据的可能,实现了从“物理存储”到“数字科研”的跨越。

历史报纸:现代科研的核心数据源

报纸是历史研究学科的核心来源,记录了特定时代的政治、经济、文化及社会洞察。作为法定归档图书馆,ULB 拥有德国最大的报纸收藏之一:包括 1300 多种 1945 年前的报纸,其中约 800 种为德国中部的地区性报纸。

数字化转型的必要性

在 20 世纪 90 年代,为了应对纸张酸化腐蚀,这些报纸曾被拍摄成缩微胶片。然而,通过缩微胶片阅读器获取信息不仅耗时费力,且无法满足现代科学研究对数据检索的需求。为此,ULB 在德国研究基金会(DFG)的支持下,启动了针对《哈勒及萨尔县通用报》和《萨尔报》的数字化项目,计划在两年内完成近百万页报纸的数字化工作。

高质量扫描:OCR 识别的技术基石

OCR(光学字符识别)的效果直接取决于原始图像的质量。在本项目中,ULB 采用了 Zeutschel OM 1800 卷片扫描仪对现有的缩微胶片进行数字化。该设备能够确保每一帧胶片都以极高的光学分辨率和色彩深度转化为数字图像,为后续的全文分析打下基础。

技术参数项 Zeutschel OM 1800 性能标准
真实光学分辨率 ≥ 470 dpi(基于 A1 幅面原件计算)
灰度深度 ≥ 12 Bit
处理软件 Quantum Process 自动裁切与处理软件
合规标准 严格遵循 DFG(德国研究基金会)数字化实践规则
优化功能 自动纠偏、边缘最小化处理以优化存储空间
ULB Sachsen-Anhalt 数字化实验室
萨克森-安哈尔特州立大学图书馆工作人员正在操作数字化设备

机器学习驱动的 OCR 识别流程

为了实现类似 Google 搜索的便捷体验,项目采用了 Tesseract OCR 软件。通过 ULB 开发的机器学习训练工作流,软件能够识别并区分 19 世纪末至 20 世纪初复杂的各种字体和相似字符。

从图像到机器可读数据

通过这种方式,扫描后的页面变得“机器可读”,研究人员可以通过任何关键词搜索内容。这种全文检索能力不仅方便了普通查询,更支持了“数字人文”(Digital Humanities)领域的创新研究,例如基于大规模语料库的实证研究。目前,该项目的 OCR 识别准确率已达到约 95%,且仍在持续优化中。

数字化成果助力数字人文研究

数字化后的报纸资源以 Open Access(CC-BY-SA 3.0 DE 协议)形式免费向公众开放。研究人员只需输入关键词,即可获取详尽的历史细节。例如,搜索“Kapp-Putsch”(卡普政变),即可查阅 1920 年 3 月关于“哈勒恐怖日”的详细报道,深入了解哈勒作为当时政治暴力中心的复杂历史。

ULB 希望通过这一项目,不仅提供素材,更能激发基于数据的创新性历史研究,让尘封在胶片中的历史在数字时代焕发新生。

常见问题

为什么在本项目中选择扫描缩微胶片而非报纸原件?

主要基于保护原件和提高效率的考虑。ULB 的报纸在 90 年代已完成高质量缩微拍摄,利用 Zeutschel OM 1800 扫描胶片可以快速处理百万级页面,同时避免对脆弱纸张的二次物理损害。对于没有胶片的报纸,则会进行原件扫描。

Zeutschel OM 1800 如何保证 OCR 的高识别率?

OCR 的准确性高度依赖图像的清晰度和对比度。OM 1800 提供 12 Bit 的灰度深度和极高的光学分辨率,能够捕捉微小的文字细节,减少噪点,从而为 Tesseract OCR 引擎提供高质量的输入源。

普通用户如何利用这些数字化成果?

所有数字化后的报纸均在 Open Access 框架下公开,用户可以通过 ULB 的在线平台进行全文检索,不仅可以查看文章,甚至可以检索当年的商业广告,极大地便利了家谱研究、企业史研究和地方志编纂。

获取完整白皮书

订阅 BookScan 智库,每周获取由专家团队撰写的最新评测报告与参数解析。

立即订阅咨询