대규모 웹 문서의 실시간 자연어 처리를 위한 데이터 수집·저장 시스템 설계 및 구현

Information

Title 대규모 웹 문서의 실시간 자연어 처리를 위한 데이터 수집·저장 시스템 설계 및 구현
Authors 현일성, 윤재연, 최병서, 이익훈, 이상구
Year 2018 / 08
Keywords 한국어, 자연어 처리, NLP
Acknowledgement HPC
Publication Type Domestic Journal
Publication 데이타베이스연구 제34권 제2호 2018년 8월호
Link url

Abstract (Korean)

빅데이터 시대에 빅데이터 시스템 구축 및 활용을 위해 데이터를 수집하고 저장 및 처리하는 일은 가장 기본적이면서도 핵심적인 일이다. 인터넷 텍스트 데이터는 대표적인 빅데이터이고, 대용량의 텍스트 데이터 수집 및 처리와 자연어 처리에 대한 수요는 지속적으로 증가하고 있다. 본 논문에서는 대규모 웹 문서의 텍스트 데이터를 수집하고 저장하는 시스템을 설계하고 구현한다. 데이터 수집 부분에서는 API가 제공되지 않는 다양한 웹 사이트로부터 텍스트 데이터를 수집할 수 있는 설계를 제안한다. 또한 데이터를 빠르고 효율적으로 수집하기 위한 병렬화 방법을 제안한다. 저장 시스템은 다양한 자연어 처리 모듈에 적용할 수 있고 실시간 자연어처리를 지원하기 위해 인메모리 데이터베이스 관리 시스템을 사용함으로써 실행 속도를 향상시켰다. 본 논문의 실험에서는 실제로 웹 문서의 대규모 텍스트 데이터를 수집하고 처리하는 실험을 통해 시스템의 유효성을 확인하였다.