대화 말뭉치 구축을 위한 웹 크롤러 기반 대화 수집기

Information

Title 대화 말뭉치 구축을 위한 웹 크롤러 기반 대화 수집기
Authors
하승도, 선동성, 이해준, 이상구
Year 2016 / 6
Keywords 대화 말뭉치, 대화 수집기, 웹크롤러
Acknowledgement 삼성전자
Publication Type Domestic Conference
Publication 한국컴퓨터종합학술대회 (KCC 2016)
Link url

Abstract (Korean)

최근 딥러닝과 같은 기계학습 기반의 텍스트 연구가 활발히 진행되면서 학습에 필요한 대화 말뭉치를 구축하는 작업이 중요해지고 있다. 본 논문에서는 대표적인 소셜 미디어인 트위터(Twitter)에서 사용자들이 작성한 게시글과 답글을 대화로 간주하고 웹 크롤링 방식으로 수집하여 대화 말뭉치를 구축한다. 그리고 이 방식이 기존 연구의 트위터 API 기반 수집 방식보다 더 많고 완전한 대화를 수집함을 실험으로 보인다. 일정 시간동안 대화를 수집하여 비교한 결과, 트위터 API 기반 수집 방식보다 웹 크롤링 방식으로 수집한 대화의 수가 1.9배 많았으며 대화의 평균 길이(대화 당 평균 발화 수)도 1.5배 더 길었다.