카테고리 보관물: 미분류

윈도우에 mecab 설치하기

<1단계: C언어 기반의 mecab 설치>C 드라이브에 mecab 폴더를 만든다. (“C:/mecab”)mecab-ko-msv를 윈도우 버전에 따라 32bit (mecab-ko-msvc-x84.zip) /  64bit (mecab-ko-msvc-x64.zip)선택하여 다운로드한 후 압축을 푼다. <2단계: mecab 사전 철치>사전 링크에서 mecab-ko-dic-msvc.zip 기본 사전을 다운로드받아서 (“C:/mecab”)에 압축을 푼다. <3단계: python용 mecab 설치>– 해당 경로에서 … 계속 읽기

카테고리: 미분류 | 댓글 남기기

Elasticsearch 찾아서 항목 지우기 예시

카테고리: 미분류 | 댓글 남기기

Elasticsearch Stack 설치

filebeat 실행 logstash 설치 설정 파일 실행 방법

카테고리: 미분류 | 댓글 남기기

tinydb 예시

참고) tinydb document: https://buildmedia.readthedocs.org/media/pdf/tinydb/latest/tinydb.pdf Example #1 Example #2

카테고리: 미분류 | 댓글 남기기

자연어처리 (NLP) 도구들

1. 한국어 형태소 분석기 한국어 텍스트를 분석할 때 가장 기본적으로 수행하는 형태소 분석기 & 품사태거 KTS (1995) GPL v2, c/c++ – http://wiki.kldp.org/wiki.php/KTS MeCab-ko (2013) GPL LGPL BSD, c/c++ – https://bitbucket.org/eunjeon/mecab-ko 한나눔 (1999) GPL v3, java – http://semanticweb.kaist.ac.kr/home/index.php/HanNanum 꼬꼬마 (2010) GPL … 계속 읽기

카테고리: 미분류 | 댓글 남기기

konlpy 태그셋

Sejong, Twitter, Komoran, Mecab-ko, Kkma, Hannanum 형태소 분석기 태그셋

카테고리: 미분류 | 댓글 남기기

konlpy 품사태거 성능 비교

성능 비교 (1회 실행 시간 – 10개 문장에 대해서 1000번 실행 후, 총 실행 시간을 1,000으로 나눔)– 품질 비교는 해보지 않았지만, 실행 시간만으로는 mecab 분석기가 압도적으로 빠르네요… 품사 부착기 pos 평균 시간 morphs, nouns, pos 평균 시간 순위 kkma 0.023728 … 계속 읽기

카테고리: 미분류 | 댓글 남기기

konlpy 사용 방법

KoNLPy는 한국어 정보처리를 위한 파이썬 패키지입니다. 설치 우분투 1. Install dependencies# Install Java 1.7 or up$ sudo apt-get install g++ openjdk-7-jdk python-dev python3-dev 2. Install KoNLPy$ pip install konlpy # Python 2.x$ pip3 install konlpy # Python 3.x 3. MeCab … 계속 읽기

카테고리: 미분류 | 댓글 남기기

Feature Weight Algorithm

1. TF-IDF TFIDF 알고리즘은 정보 검색 분야에서 가장 중요한 알고리즘이었습니다. 검색, 문서 분류와 관련된 분야에서 널리 사용되었으며, 정보 검색 상관 관계의 척도였습니다. TFIDF 알고리즘의 기본 개념은 다음과 같은 두 가지 측면을 포함합니다. TF (빈도) – 문서의 용어의 빈도가 높을수록 용어의 … 계속 읽기

카테고리: 미분류 | 댓글 남기기