맵리듀스(Map-Reduce) 프로그래밍 - 공기정보(Co-occurrence) 구하기 두번째. 상대 빈도 구하기 이 글은 http://nlpmlir.blogspot.kr/2013/09/map-reduce-co-occurrence.html 에도 함께 게시하였습니다. 지난번 포스팅에서 하나의 문장에서 두개의 단어가 동시 출현하는 빈도수를 계산하는 간단한 hadoop streaming 파이썬 프로그램을 소개하였다. 이번 포스팅에서는 이 프로그램이 가지는 문제점을 해결하기 위한 새로운 프로그램을 만들어 보도록 하겠다. 지난번에는 파이썬으로 mapper 프로그램만 작성하고, reducer는 -reduce aggregate라는 옵션으로 내장 reducer를 사용했지만, 이번에는 reducer를 직접 작성해야 한다. 또한, 여러개의 reducer에 분배되는 key를 제어하기 위한 partitioner 옵션도 사용하도록 하겠다... 더보기 이전 1 2 3 4 ··· 39 다음