기후위기시계
실시간 뉴스
  • KISTI, 기계학습데이터 425만건 무료 개방
논문 QA 데이터를 활용한 질의응답 서비스 화면.[KISTI 제공]

[헤럴드경제=구본혁 기자] 한국과학기술정보연구원(KISTI)은 ‘과학기술 분야 기계학습데이터 구축 사업’의 결과물을 누구나 쉽게 활용할 수 있도록 과학기술 지식인프라 ‘사이언스온(ScienceON)에서 개방한다.

데이터와 AI가 글로벌 경제의 핵심으로 전망되며 많은 연구 분야에서 AI가 적극 활용되고 있으나, AI가 활용할 수 있는 데이터, 즉 기계학습데이터는 부족한 상황이다. KISTI는 기계학습데이터 구축 사업을 전개, 과학기술 분야 국내논문 및 국가R&D연구보고서를 토대로 AI를 위한 데이터셋 5종 425만 건을 구축하는 데 성공했다.

KISTI는 이렇게 구축한 데이터셋을 이용자가 원하는 방식으로 자유롭게 활용할 수 있도록 사이언스온의 기존 학술정보 서비스에 기계학습데이터 논문 전문 텍스트, 보고서 표/그림, 논문 QA, 논문 문장 의미태깅을 접목한 서비스를 선보인다.

제공되는 서비스는 논문 전문 텍스트를 활용해 이용자가 검색한 키워드가 본문 문장에서 어떻게 표현되는지 키워드의 전후 내용을 스니펫(검색한 의도에 부합하는 답을 제공할 수 있는 최소한의 단위)으로 제공된다. 보고서에 수록된 표/그림 이미지는 물론, 이를 설명하는 캡션과 인용 문장들까지도 함께 제공하게 된다. 또 논문 QA 데이터를 활용해 논문의 핵심 어휘를 질문과 답변 형식으로 쉽게 풀이해 제공하고, 논문 문장 의미태깅을 통해 연구목적, 연구방법, 연구결과를 요약하여 제공함으로써 이용자가 논문을 빠르게 선택할 수 있도록 도움을 주게 된다.

이 외에도 요약 정보를 PDF 원문에 표시하여 제공함으로써 PDF 원문 가독성을 높였으며, 특정 참고문헌이 인용된 문장도 논문에서 바로 확인할 수 있도록 했다.

이석형 KISTI 융합서비스센터장은 “연말까지 AI 데이터셋을 활용해 AI가 자동으로 논문을 요약하는 서비스를 정식 오픈할 계획”이라며 “사이언스온을 통해 연구자의 다양한 연구 활동을 지원할 수 있도록 지속적인 데이터 확충과 안정적인 서비스 운영에 최선을 다하겠다”고 밝혔다.

nbgkoo@heraldcorp.com

맞춤 정보
    당신을 위한 추천 정보
      많이 본 정보
      오늘의 인기정보
        이슈 & 토픽
          비즈 링크