lexrankr - LexRank 기반 한국어 다중 문서 요약

Information

Title lexrankr - LexRank 기반 한국어 다중 문서 요약
Authors
설진석, 이상구
Year 2016 / 12
Keywords 다중 문서 요약, 한국어 LexRank
Publication Type Domestic Conference
Publication 한국정보과학회 동계학술발표회 (2016년)
Link url

Abstract (Korean)

본 논문에선 LexRank 알고리즘을 한국어에 적합하도록 구현한 파이썬 패키지 lexrankr에 대해 기술한다. LexRank 알고리즘은 TextRank와 비슷하게, 문서 내의 각 문장들을 노드로, 문장들 간 유사도를 간선의 값으로 그래프를 만든 후 PageRank를 적용해서 중요한 문장을 추출해내는 추출 기반 문서 요약 알고리즘이다. 본 논문에선 LexRank 알고리즘을 비롯한 추출 기반 문서 요약 방법론들을 적용하여 한국어에 적합하도록 파이썬 패키지로써 구현한 방법을 자세히 기술한다. 긴 문서를 주제별로 요약하기 위해 새로운 유사도 함수를 제안하며, 원하는 축약 정도를 맞추기 위한 클러스터 탐색 방법 역시 제안한다. 편리하게 사용할 수 있도록 패키지화 되어있으며, 오픈소스의 형태로 개발되었다.