텍스트마이닝을 이용한 지반정보 디지털 DB화 기술 개발
▲ 박가현 KICT 지반연구본부 수석연구원
들어가며
최근에는 4차 산업혁명 시대의 핵심기술인 인공지능과 빅데이터를 활용하여 새로운 부가가치를 창출하고자 하는 수요가 다양한 분야에서 폭발적으로 증가하고 있다. 그러나, 원본 데이터 확보의 어려움과 신뢰성 문제 등의 이유로 기대에 못 미치는 성과를 도출하는 경우도 심심치 않게 나타난다.
한편, 국토교통부에서는 지반정보를 체계적으로 관리하고 공유할 목적으로 2007년부터 국토지반정보 포털시스템을 운영·관리하고 있다. 이렇게 디지털화되어 관리되는 지반정보는 중복굴착 방지, 예산 절감, 지반정보의 활용성 향상 등 긍정적인 효과가 있다. 지반조사 결과의 활용은 설계, 시공, 지하 안전관리, 재해재난 분야 등으로 점차 확대되고 있다. 특히 최근 지반침하, 지반함몰 등 지하 안전사고 및 지진 발생 증가로 인해 지반정보 활용이 급증하고 있다. 그러나 현재 지반정보를 데이터베이스(DB)화하는 과정에 있어 사람이 직접 PDF 파일 등을 보고 일일이 타이핑하여 진행되기 때문에 시간적·인적 자원 소모가 매우 크며, 정확도 문제가 빈번히 발생하고 있다. 또한, 원칙상으로는 국토지반정보 포털시스템에 지반조사보고서 내 모든 내용을 입력하게 되어 있으나, 실제 데이터가 비숙련자/비전공자에 의해 입력되는 과정에서 중요 시험정보가 대부분 누락되고 시추주상도 정도만 간신히 입력되고 있다.
사람이 일일이 타이핑하는 기존의 데이터 구축 방식은 원본 데이터 및 활용 후 데이터의 정확도와 신뢰도에 영향을 미친다. 이러한 이유로 현재 국토지반정보 포털시스템에는 전국적으로 약 33만 공의 지반정보가 구축되어 있으나 실제 활용할 수 있는 데이터 수는 현저히 적다. 사람의 입력 오류를 최소화하고 지반정보의 정확도를 높이면서 시간적·인적 자원 소모를 획기적으로 절약할 수 있는 지반정보 자동 디지털 DB화 기술 개발이 필요하다. 종이 문서(스캔된 문서)에서 텍스트를 추출하여 디지털 DB화 하려는 움직임은 비단 건설 분야뿐만 아니라 정부의 데이터댐 구축사업에서도 확인할 수 있듯 각 분야에서 동시다발적으로 일어나고 있다. 대기업, 금융권 등에서도 디지털 전환을 통해 업무를 효율화하기 위해 RPA(로봇 프로세스 자동화)와 OCR(광학문자인식) 등의 기술 도입단계에 있으나 한글에 대해서는 보편적이고 상용화된 솔루션이 거의 없는 것이 현실이다.
이 글에서는 종이 문서 형태의 지반정보를 디지털 DB화하기위하여 개발한 기술과 앞으로의 연구 방향에 대해 간략히 소개하고자 한다.
지반조사 보고서(종이 문서)에 대한 이해
종이 문서를 디지털 DB화하려는 방안을 모색하기 위해 먼저 검토해야 할 항목들이 있다. 우선 종이 문서에 대한 검토가 필요한데 종이 문서의 양식, 특징에 대한 검토가 필요하며이 중에서도 어떤 내용을 추출할 것인지에 대한 고려가 필요하다. 또한, 어떤 파일 형태로 기존문서가 보관되어 있는지를 검토해야 한다. 일반적으로 지반조사 보고서는 본문과 부록으로 구성되어 있다. 본문에는 다양한 시험 결과를 요약해서 테이블 형태로 수록된다. 부록에는 실내 시험의 원본 데이터가 수록된다. 이 글에서는 특히 원본 데이터인 부록의 데이터를 추출하는 방법을 소개한다.
기술 개발을 위하여 국내 34개 현장의 지반조사 보고서를 수집하여 분석한 결과, 동일 시험에 대해서도 시험 양식의 종류가 매우 다양하게 나타났다. 지반조사 보고서의 부록 파일은대부분 PDF 형태로 보관되고 있음을 확인하였다. 마지막으로 텍스트 추출 방법을 결정해야 하는데, 텍스트를 추출하는 방식으로는 광학문자인식(Optical Caharacter Recognition, OCR) 기법과 PDF 파일 읽기가 가능한 모듈을 이용하여 텍스트를 추출하는 방식에 대하여 검토했다. 검토 결과 OCR 오픈 소스의 경우 특히 한글에 대해 성능이 매우 떨어져서 커스터마이징이 추가적으로 필요했다. PDF 파일 읽기가 가능한 모듈을 사용하는 경우, 높은 인식률과 정확도를 확인하였으며, 적용 가능성이 높았다.
지반정보 디지털 DB화 기술 개발
지반조사 보고서의 부록에 수록된 실내 시험 원본 데이터의 경우 보고서 상세 분석 결과 입도분포 시험, 일축압축시험, 압밀시험, 삼축압축시험 순으로 빈도가 높은 것으로 나타났다. 지반조사 보고서와 마찬가지로, 부록도 작성 양식의 표준화가 되어 있지 않은 것을 확인하였다. 동일한 시험이라 할지라도 수행한 업체 등에 따라 그 양식이 다른것으로 나타났다.따라서, 지반조사보고서 부록 내 데이터를 추출하기 위해서는 먼저 각 양식을 구별한 후에 양식별로 적절한 추출 알고리즘을 적용하여야 한다.
지반조사 보고서 부록에 대하여 이미지 인식 분야에서 특히 높은 성능을 보이는 ResNet34를 이용하여 각 시험을 잘 인식하는지 확인하였다. 이미지 증대를 위해 상하좌우 반전, 회전, 이동, 이미지크기 변화, 밝기 및 명암 변화, 표준화 등을 이용하였다. 그 결과, 정확도 100%로 각 시험 양식을 구별하는 것을 확인하였다. 이후, 입도분포시험에 다시 한번 ResNet34 알고리즘을 적용하여 개별 양식을 구별하는 것을 확인하였다. 그 결과 정확도 100%로 입도분포시험 양식을 성공적으로 분류해냈다.
이후, PDF 리딩 라이브러리를 이용하여 PDF 파일을 인식한 후에, 텍스트로 변환하고 원하는 값을 쌍을 이루어 엑셀 파일로 추출하는 알고리즘을 구현하였다. 대표 양식에 대하여 데이터를 추출하였으며, 초당 200페이지의 속도, 정확도 100%로 데이터를 추출하는 것을 확인하였다. 즉, 부록에 있는 실내시험 데이터에 대해서 딥러닝을 두 번 적용하고, 이후 RPA 기법을 이용함으로써 성공적으로 디지털 DB화가 가능한 것을 확인하였다. 미국 등과 같은 해외에서도 지반조사 결과 보관 및 처리는 지반조사를 수행한 업체에서 관리하며, 정부 차원에서는 따로 관리하지 않는다. 지반조사를 수행하고 있는 업체들의 경우, 조사 결과를 기재하는 포맷이 서로 다르다는 문제가 있다. 다른 회사가 지반조사를 수행한 지역의 자료를 조회하는 경우 발주처를 통해 PDF 양식으로 지반조사 및 시추조사 자료를 전달받으며, 디지털화된 양식의 정보는 절대 제공되지 않는다는 현실을 고려할 때, 본 기술 개발은 해외시장에서도 효용가치가 높을 것으로 판단된다. 관련 기술을 선점할 경우 국가 건설기술 경쟁력을 높일 수 있을 것으로 기대된다.
지반정보 자동화 DB구축 관련 연구 방향
이 글에서 제시한 방법은 종이 문서로 보관되고 있는 지반정보를 디지털 DB로 변환하는 다양한 솔루션 중 하나일 것으로 생각된다. 한편, 양질의 데이터 디지털 전환을 위해 앞으로는 투-트랙의 접근이 필요할 것으로 판단된다. 과거에 누적된 데이터에 대해서는 딥러닝과 RPA를 이용하여 데이터를 차근차근 확보하는 동시에 앞으로 쌓일 데이터에 대해서는 다양한 발주처와 협의하여 하루빨리 표준화된 시험 양식과 디지털화를 위한 보고서 작성 요령 등을 마련하여 보급하여야 할 것이다. 디지털 데이터에 대한 수요가 기하급수적으로 증가하는 만큼 어떻게 하면 빠르고 쉽게 양질의 데이터를 확보할 수 있을지 그 방법에 대한 고민이 필요한 시점이다.