카이 제곱 통계량(x2 statistics)

카이 제곱 통계량(x2 statistics)
용어 t와 범주 c와의 의존성( d e p e n d e n c y )을 측정하는 것으로서 자유도 1인 카이 제곱 분포와 비교될수 있다.
카이 제곱 통계량을 계산하는 식은 다음과 같다.

위 식에서 A는 범주 c에 속해 있는 문서 중에서 용어 t를 포함하고 있는 문서의 수이고, B는 범주 c외의 범주에 속해 있는 문서 중에서 용어 t를 포함하고 있는 문서의 수이다.
또한, c는 범주 c에 속해 있는 문서 중에서 용어 t를 포함하지 않는 문서의 수이며, D는 범주 c외의 범주에 속해 있는 문서 중에서 용어 t를 가지고 있지 않은 문서의 수이며, N은 전체 학습 문서의 수이다.
카이 제곱 통계량은 용어 t와 범주 c가 완전히 독립적이면 0의 값을 가진다.
각 범주에 대해서 용어의 정보량을 계산한 후에 전체 학습 문서에서의 용어 정보량을 계산하기 위해서 다음의 식 중에 하나를 선택하여 사용한다.

어려운점

  • 형태소 분석기의 색인어 추출에 대한 정확도
  • 내용과 부합되지 않은 색인어 후보들

Add Comment

정보 획득량(Information Gain)

정보 획득량(Information Gain)
기계 학습 분야에서 자주 사용되는 기법이다.
이기법의 특징은 문서에서의 출현 빈도뿐만 아니라 출현하지 않은 빈도까지 고려해서 각 범주에서의 용어 정보량을 계산한다는것이다.
범주를 ( c1, c2, …, cm )라고 할 때 용어 t의 정보 획득량은 다음과 같은 식으로 구해진다.

 

[팁] mysql 데이터 파일 경로 변경

mysql을 쓰다가, 이상하게 해결할 수 없는 오류들을 만났다.

insert도 잘되던 데이터들이 올라가지 않고, truncate이나 drop 구문을 날렸는데, 5분이 지나도 hang되어 버렸다.

이렇게 hang이 걸리면, mysql stop도 시킬 수 없고 당연 start도 할 수 없었다.

어쩔 수 없이 mysql 프로세스를 kill시키고 다시 start할 수 밖에….
(kill & start는 되어서 정말 다행이었다…)

잠시였지만 고민 끝에 확인한 것이 storage가 full이었을 때의 증상이었다.

yum으로 mysql을 설치하니, /var/lib/mysql에 데이터가 저장되는 경로가 default로 설정이 되었고, /에 할당된 disk가 20GB밖에 되지 않아서 금방 full이 났다.

방법은 데이터 경로를 변경하는 것. (다음과 같이 쉽게 작업됨)

1. mysql을 stop 시킨다.

2. 새 데이터 directory를 생성하고 (예, /data/mysql), /var/lib/mysql/* 을 /data/mysql/로 이동시킨다.

3. my.cnf 파일에 생성한 디렉토리를 추가한다.
[mysqld] 아래에 다음 line들을 추가한다.
datadir=/data/mysql
innodb_data_home_dir=/data001/data/mysql
innodb_log_group_home_dir=/data001/data/mysql.

4. mysql을 start 시킨다.

추가로, log-error=on추가로, 를 추가하면  on.err파일이 생성된다.