揭開中國人口普查不為人知的秘密
香港正在進行全港性的大型人口普查,在內地其實在一定的時間內亦會進行類似的調查,而且所面對的除了是多達 13 億的調查資料處理工作外,調查人員更需要深入偏遠的鄉鎮進行調查工作,將香港的調查工作與內地的相比,不得不承認香港的簡直是「小兒科」。
那麼作為 IT 人,大家一定會想知道,究竟內地使用了那些方案可處理這個數量驚人的資料呢?雖然筆者並不知道所有的方案,但至少知道其中一家公司 – Fujitsu,這家公司便成功透過「fi 系列」掃描器方案,將調查人員手寫的資料轉變成數碼化,以便進行儲存及分析之用。
簡單介紹一下今次內地的人口普查,這次人口普查是由中國國家統計局(National Bureau of Statistics of China,簡稱NBSC)進行,並於四月完成,而根據慣例,中國國家統計局每十年進行一次全國人口普查,2011年人口普查登記的全國總人口為13億人。數以百萬計的調查人員在全國各地進行家訪,蒐集有關資料。隨後,這些資料透過Fujitsu掃描器和OCR技術迅速轉換成數碼數據,以協助取得準確的普查結果。有關項目合共掃描約7億4千萬份手寫完成的人口普查問卷。
為了應付數量驚人的資料以及迫切的時間,在招標初期中國國家統計局亦定下了比一般工作更為嚴格的要求,當中包括 :
– 具備高度精確的OCR技術,能夠快捷和正確地從人口普查問卷收集手寫數據
– 為掃描器定製表格擷取及處理系統,確保精確計算人口普查問卷數量
– 提供高負荷掃描器,可24小時連續使用
– 專業團隊必須具備技術實務知識,能迅速回應國家統計局的需要
– 設立一星期七天、每天24小時(24/7)全天候運作的客戶支援網絡,覆蓋中國全國各地,迅速解決各種技術問題
單是需要符合上述要求,便需要一家實力雄厚的公司方能夠達標。
Fujitsu於 OCR技術方面確實擁有超過30年經驗,嵌入表格擷取及處理系統的「fi系列」掃描器經過悉心設計,快而準地把手寫資料轉換成數碼數據。為配合這個項目的需要,定製的OCR軟件已為中文字符識別進行優化,以辨認和擷取多個中國省份和少數民族不同風格的筆跡。為了確保中文字符識別的準確性,以加快全國人口普查項目進度,Fujitsu解決方案顧問特別收集了幾千人的筆跡樣本,為內地建立強大和獨一無二的資料庫。此外,Fujitsu解決方案顧問特別改進有關掃描器,提高塵埃控制技術,確保可以在惡劣環境中一星期七天、每天24小時全天候運作。
中國國家統計局人口普查項目採用1700台「fi系列」,能處理大量文件的掃描器,配備表格及擷取處理系統和OCR技術。在整個項目期間,掃描器均提升防塵功能並耐用性,能夠以一星期七天、每天24小時方式操作,確保項目遵循既定的時間表。該掃描器性能強勁,掃描速度高達每分鐘90頁/每天45,000頁,識別率達99%以上,協助有關項目團隊準時成功完成項目。
另外,在全國人口普查項目進行期間,Fujitsu亦設立一條一星期七天、每天24小時的客戶支援熱線,為掃描器相關的問題和故障排除提供全日24小時支援。而今次的調查,國家統計局在全國各地設有600個掃描中心,以方便進行調查工作。