기후위기시계
실시간 뉴스
  • “사투리부터 암진단 영상까지”…‘데이터 댐’ 170종 본격 개방
과기부·NIA ‘AI허브’에 8대분야 데이터 개방
한국어 방언·자율주행·헬스케어 등 4.8억건
데이터 댐 개념도. [과기정통부 제공]

음성 AI(인공지능)가 경상도·전라도 등 각 지역 방언을 정확히 인식할 수 있도록 한국어 사투리 데이터가 풀린다. 버스 노선 주행 영상 등의 데이터를 공개해 자율주행차 기술 개발을 앞당기고, 유방암 등 암 진단 데이터까지 개방해 질병 진단 정확도를 높인다.

과학기술정보통신부와 한국지능정보사회진흥원(NIA)은 인공지능 학습용 데이터 8대 분야 170종(4억8000만건)을 ‘인공지능(AI) 허브’에 18일부터 개방한다고 밝혔다.

정부는 지난해 ‘디지털 뉴딜’ 일환으로 방대한 데이터를 비축해 필요 시 개방하는 ‘데이터 댐’ 정책을 발표한 가운데, 산업계·전문가·일반 국민 등이 참여해 구축한 데이터를 이번에 개방하는 것이다. 데이터 구축에는 국내 주요 인공지능·데이터 전문 기업은 물론 주요 대학(서울대, KAIST 등 48개), 병원(서울대병원, 아산병원 등 25개) 등 총 674개 기업·기관이 참여했다. 여기에 경력단절여성, 취업준비청년 등 4만여명의 일반 국민도 동참했다.

개방 데이터 분야 별로는 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종), 비전(스포츠 동작 영상 등 15종), 국토환경(산림수종 이미지 등 12종), 농축수산(가축행동 영상 등 14종), 안전(노후 시설물 이미지 등 19종), 기타(패션상품 이미지 등 18종) 등으로 구성됐다.

특히 이달 30일 공개를 앞두고 있는 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 인공지능(AI) 서비스의 문제점을 해결할 수 있을지 주목된다. 실제 각 지역별 농어촌 주민 등의 실제 사투리 음성을 녹음해 방언 데이터로 구축했다. 데이터 개방 전 활용성 검토 결과 “자연스러운 방언이 수집됨”, “기존 서비스의 인식률이 12% 향상됨” 등의 긍정적 반응이 나왔다. 또 자율주행 데이터(21종)는 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 기존과 차별화된 데이터를 포함했다. 활용성 검토 결과 “특수 차선, 장애물, 포트홀 등 다양한 객체가 포함” 등이 대표적인 장점으로 꼽혔다.

이 같은 데이터들이 실제 현장에서 혁신적으로 활용될 수 있도록 과기정통부는 18일 ‘인공지능(AI) 데이터 활용협의회’ 출범식을 개최했다. 협의회는 데이터 품질관리 전문기관인 한국정보통신기술협회(TTA)와 이번 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐다. 주요 참여 기업은 삼성전자, 현대차, SK텔레콤, LG, KT, 네이버 등이다. 이들은 AI 허브 데이터 적극 활용 및 피드백을 통해 지속적으로 데이터 품질을 개선하고, 신규·추가 과제 기획 등에 협력할 예정이다.

임혜숙 과기정통부 장관은 “이번에 공개되는 데이터들이 산업 곳곳에서 널리 활용돼 혁신의 열매를 맺을 수 있기를 기대한다”며 “정부도 고품질의 인공지능 학습용 데이터를 지속적으로 제공하고, 누구나 데이터를 쉽게 활용하고 성과를 공유할 수 있는 환경을 조성하는 데 지원을 아끼지 않겠다”고 강조했다. 정태일 기자

맞춤 정보
    당신을 위한 추천 정보
      많이 본 정보
      오늘의 인기정보
        이슈 & 토픽
          비즈 링크