OCR・データ処理

行政文章OCRサービス
大規模文書デジタル化

行政機関の紙文書を高精度でデジタル化。AWS Batchによる大規模並列処理で、数百万件の文書も短期間で処理可能。

99.5% 認識精度

100万件月間処理能力

70% コスト削減

手書き対応古文書も認識

Overview

プロジェクト概要

行政機関が保有する大量の紙文書をOCR技術でデジタル化するサービスです。AWS Step FunctionsとAWS Batchを活用した並列処理で膨大な文書を効率的に処理します。

手書き文字や古い印刷物にも対応した高精度OCRエンジンを採用。抽出データの検証・修正ワークフローも構築し、データ品質を担保しています。

Challenge & Solution

課題

数百万件の文書を限られた期間内に処理する必要があった。

解決

AWS Batchによる並列処理で、1日10万件以上の処理を実現。

課題

手書き文字や古い印刷物の認識精度が低かった。

解決

AWS Textractと独自の後処理エンジンで99.5%の精度を達成。

課題

OCR結果の検証・修正に多大な人的コストがかかっていた。

解決

AIによる自動検証と効率的な修正ワークフローを構築。

Tech Stack

次のプロジェクト

iPaaSシステム