This site is deprecated and no longer maintained. Please visit the new site for up-to-date information.

This site is deprecated and no longer maintained. Please visit the new site for up-to-date information.

KEE (Knowledge Extraction Engine)

From IDSlab

Jump to: navigation, search



Contents

Introduction

KEE

This project aims to extract knowledge in documents


License

-


Detail

Crawler

  • 이 프로그램은 크롤링 대상이 지정된 xml 설정 파일을 읽어 수집을 수행한 후, 그 결과를 xml 로 저장한다. Web-Harverst 라는 자바용 크롤러 라이브러리를 사용한다.

CVS

  •  :pserver:cygnus.snu.ac.kr:/oss-cvs/kinkin
  • 접근 권한은 Unix Admin 에게 문의

디렉토리 구조

  • src : 소스
  • conf : 설정 파일 디렉토리
    • kdaq01.xml : 엠파스 지식(kdaq.empas.com)용 설정 파일
    • kdaq02.xml
  • doc : 문서
    • kdaq : 샘플 크롤링 결과 저장
    • webharvest : webharvest 도움말 파일
  • lib : 라이브러리
  • log : 로그 저장 파일
  • output : 수집 데이터 저장 디렉토리

Class

Sample

  • 샘플로 엠파스 지식(kdaq.empas.com)을 수집
  • corona.snu.ac.kr의 오라클에 저장
  • 접속 문의는 Unix Admin 에게 요청
    • 지식 Q&A ≫ 쇼핑∙상품정보 ≫ 휴대폰 ∙PDA
    • 지식 Q&A ≫ 쇼핑∙상품정보 ≫ 쇼핑노하우
    • 두 카테고리에 대해 답변이 있는 지식으로 각각 3500 건씩 저장
  • 수집항목
    • 질문
      • URL
      • 질문자 ID
      • 날짜
      • 카테고리
      • 제목
      • 내용
      • 태그
      • 추천수합
      • 조회수
    • 답변
      • 네티즌 선택, 질문자 선택 여부
      • 답변자 ID
      • 날짜
      • 내용


Survey

  • Keyword
    • (information/named entity/relationship/knowledge) extraction
    • semantic annotation
    • ontology building

System & Tool

  • 이용 가능한 대표적인 문서 아키텍처 및 프로그램으로서 GATE-General Architecture for Text Engineering-가 있다. 자바 기반으로 독립 프로그램으로 실행 가능하고, 라이브러리 형식으로 포함하여 사용할 수 있다. 유니코드를 지원하여 다국어 처리를 할 수 있다. 아래 논문은 GATE 의 구조 및 다른 툴에 대하여 참조할 수있는 논문들이다.
    • Information Extraction Tools: Deciphering Human Language
    • GATE, a General Architecture for Text Engineering
    • Evolving GATE to Meet New Challenges in Language Engineering
  • 그 외 관련있는 아키텍처, 프레임워크 관련 논문
    • Snowball : Extracting Relations from Large Plain-Text Collections
    • CREAM — Creating relational metadata with a component-based, ontology-driven annotation framework
    • Authoring and Annotation of Web Pages in CREAM
    • WebScale Information Extraction in KnowItAll (Preliminary Results)
    • MnM: Ontology Driven Semi-automatic and Automatic Support for Semantic Markup
    • Armadillo: Harvesting Information for the Semantic Web
    • URES : an Unsupervised Web Relation Extraction System
    • InfoXtract: A Customizable Intermediate Level Information Extraction Engine
    • YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia
    • SemTag and Seeker: Bootstrapping the Semantic Web via Automated Semantic Annotation

GATE

  • 프로그램은 다음과 같은 세가지 부분으로 이루어진다.
    • GDM : Language Resource. 처리할 대상이 되는 문서를 XML 형식으로 저장된 문서들을 관리
    • CREOLE : Processing Resource. GDM 에 저장되어 있는 문서를 처리하는 알고리즘 관리
    • GGI : Visual Resource. 처리 결과를 보여주는 것을 정의한 부분
  • 알고리즘의 구현의 일반화를 위해서 CREOLE은 입력과 출력 모두 GDM 의 형식이 된다. 문서는 gdm 에 의해 xml 형식으로 어노테이션이 이루어져 있는데, 각 처리 알고리즘은 이 xml 에 대한 처리를 수행하는 것이다. 자세한 사항은 GATE User Manual 을 참조.

others

  • 관련된 서베이 논문
    • Survey of Semantic Annotation Platforms
    • A Brief Survey of Web Data Extraction Tools
  • information extraction 이나 ontology building 과 같은 보다 일반적인 내용을 다룬 논문들
    • Automatic Ontology - Based Knowledge Extraction from Web Documents
    • Unsupervised Named-Entity Extraction from the Web: An Experimental Study
    • Incremental Formalization of Document Annotations through Ontology-Based Paraphrasing
    • Extracting Relations from Large Text Collections
    • Towards Semi-automatic Ontology Building Supported by Large-scale Knowledge Acquisition
  • 한글 논문
    • 웹 정보 추출의 동향
    • 준구조화된 정보소스에 대한 지식기반의 Wrapper 학습 에이전트
    • 문맥과 위치정보를 사용한 정보추출
    • 의미 중의성을 고려한 온톨로지 기반 메타데이타의 자동 생성
    • 구조화된 웹 문서에 대한 자동 정보추출


Developer