Camel boy: 2014

2014년 9월 20일 토요일

국내여행 - 경상북도 상주

뒤늦게 가게된 여름 휴가.

빠듯한 일정상 해외는 꿈도 못꾸고 국내여행으로 다녀왔습니다.

경상북도 상주.

국제승마장, 드라마 '상도' 의 촬영지, 곶감 등으로 유명한.

연휴 트래픽이 두려워 아침 일찍 서둘러서 고속도로를 타고 냅다 달렸습니다.

첫번째로 도착한 곳이 상주 국제 승마장.

평일 오후라 그런지 한산한 모습. 길 앞쪽에 조랑말(?)을 끌고 가는 마부

마굿간에는 건장한 놈/년(?) 들이 이방인을 신기한 눈으로 쳐다본다.

정성스레 손질을 하고 있는 관리인. 이놈이 싯가 1억5천 이라는...

도촬(?)중인 블로그 쥔장.

목욕시간인지 차례로 샤워실(?)로 직행하는 말들

유니크한 skin을 소유하고 있어 한컷.

상주에서 유명한 경천대 관광지 입구.

힐링을 목표로 하는 슬로건.

주황색으로 보이는 길이 황토길.

직접 걷는 영상.

경천대 올라가는 길.

경천대 정상. 맑은 하늘과 주변경관이 잘 어울린다.

내려가는 도중, 발견한 공원 고양이. 사람을 두려워 하지 않는다.

가다 보면 드라마 상도 세트장 푯말이 나온다.

드디어 도착한 상도 세트장 입구.

친절(?)한 세트장 설명. 이게 전부임. 시간이 아까워..

상주보 야경. 자동차로는 저 다리를 못건너고 자전거를 이용해야 한다.

자전거길 종주 인증센터. 안을 보면 인증 스탬프가 있다. 자동차로 와서 저것만 찍으면 종주로 인정되는 건가..

보다시피 자동차는 출입금지. 기둥으로 보이는 대들보(?)가 시시각각 색상이 변화한다.

상주보 야경 영상.

상주 국도에서 발견한 야생화. 이런놈들이 여기저기 널려있다.

눈을 즐겁게 하여주는 상주 국도 드라이브 코스.

여기가 상주 학생야영장 앞 솔숲길. (맥문동 군락지) 아름다운 사진을 얻으려 여기저기서 몰려든 카메라맨 들.

소나무, 맥문동 군락지에 대한 설명.

맥문동 군락사진1

맥문동 군락사진2

맥문동 군락사진3

문장대 오르는길. 등산로에 끊임없이 연결되어 있는 계곡, 계곡들.

맑은 물과 함께 이어지는 끊임없는 계곡.

이런 돌계단은 얼마 안된다.

드디어 보이는 문장대 정상.

문장대 정상에서 한컷.

계단을 타고 끝까지 올라가면...나타나는 장관

어디를 보고 찍어도 그림이다.

맑은 하늘과 자연경관. 전문사진 기사로 나서볼까..

문장대를 내려와 검색한 맛집 '새지천 식당' 원조

메뉴는 심플 하다.

바로 요 '손칼국수'

깔끔한 국물맛과 쇠고기, 손수재배한 야채들이 어우러져 환상의 맛을 보여준다.

배도 채웠겠다. 유명한 커피숍으로 직행.

옆에 Factory 가 보인다.

커피가게 내부 전경1.

커피가게 내부전경 2.

마지막으로 들린 곶감 농장.

사촌과 친척들 위주로 구매.

사장님이 365일 판매하고 있다며 언제든지 오라고 홍보.

서울에서 내려왔다고 하니 서비스 까지 잊지 않는 사장님.

2014년 8월 17일 일요일

스타벅스를 가지 않는 이유. 그리고 이스라엘(Israel), BDS 운동 - 1

"스타벅스와 이스라엘이 무슨 관계야?"

제가 스타벅스는 이스라엘과 관련이 있을것 같아 안간다고 하면 주변에 이렇게 되묻는 분이 많습니다.

사실 스타벅스를 안가는 이유는 개인적으로 다음의 두가지 이유 때문입니다.

1. 정치적
2. 중독성

정치적 이유는.

굳이 이스라엘의 건국역사나 팔레스타인 해방운동과 관련된 거창한 이야기는 제쳐 두더라도,

스타벅스 창립자이자 회장인 Howard Schultz 가 Zionist(시온주의자) 인것은 사실입니다.

관련 정보는 위키 와 그의 행적들을 약간만 trace 해보면 쉽게 접할수 있는 정보입니다.

그는 이스라엘 Friends of Zion 50주년 기념행사에 당당히 참석하여 이름을 빛냈었죠.

이 행사는 국제적인 이스라엘 펀드에서 주관하는 행사 입니다.

지금은 관련 링크가 많이 사라졌습니다만(어떠한 이유인지는 모르겠지만...그러나 참석여부는 보이콧 스타벅스 캠페인 에서 확인 가능합니다)

항간에서는 그가 Zionist 라는 이유만으로 스타벅스를 보이콧 하는 것은 위험한 행동이다 라고 이야기 합니다.

그리고 회장인 하워드 슐츠가 보냈다고 하는 친-이스라엘 편지는 반시온주의(Anti-Zionism) 파의 조작이라는 이야기도 있습니다 (원문은 여기 참조)

그들의 말도 일리가 있습니다.

회장 한사람의 종교적 이유때문에 해당업체 불매운동을 벌인다? 사실 이것도 넌센스긴 하죠.

또한 스타벅스는 어떠한 정치적, 종교적 명분을 지원하지 않고, 이스라엘역시 지원하지 않는다고 공식적으로 밝혔습니다. (한글링크 , 그리고 영문링크 참조)

사실 스타벅스는 반 이스라엘 국가인 아랍권(이집트, 요르단 등)에서도 이미 성행하고 있습니다. 이스라엘을 국가로 인정하지 않는 그들 안방에서 말이죠.(이것도 넌센스?)

그런데 말이죠.

왜이렇게 찝찝할까요. 무언가 큰일 보고 안닦고 나온듯한...

스타벅스는 공식적으로 어떠한 정치적, 종교적 명분도 지원하지 않는다고 이미 밝혔습니다.

그러나 회장인 Howard Schultz 에 대한 의문들에 대한 답변이 아직까지 없습니다.(일부러 안하는 것이겠죠..)

Howard Schultz and Zionist.

그도 개인이기 때문에 종교의 자유를 누릴 권리가 당연히 있습니다.

2014년 현재 순자산이 미화 22억불(포브스 참조)인 그가 전세계 Zionists 의 염원이자 꿈인 이스라엘 건국에 아무런 지원을 하지 않았을까요?

저는 그렇지 않다고 봅니다. (Zionism이 어떤 사상/종교 인지 아시는분은 그들이 어려서부터 어떤 교육을 받는지 잘아실겁니다.)

회장 개인적으로 하는 지원이기 때문에 스타벅스와 상관이 없다. 라고 생각 할수도 있습니다.

그러나, 그가 벌어들이는 수입은 어디서 나오는 걸까요.

스타벅스에서 나옵니다. 이것 또한 부정할수 없는 사실입니다.

현재로선 그가 이스라엘을 지원한다고 밝혀진 어떠한 사실도 없습니다. (있다면 알려주시기 바랍니다. 한턱 크게 쏘겠습니다)

다만 그가 활동중인 Zionist 라는점, 이스라엘 건국/영화와 관련이 있을수 밖에 없다는점.

이러한 이유들로 저는 논란의 소지가 있다고 '의심' 하는것 입니다.

대부분의 사람이 그렇듯이 저도 의심이 들면 보수적으로 행동합니다.

반드시 해야할것이 아니라면 '외면' 하는 것이죠.

그래서 스타벅스 이용에 대해선 보수적으로 행동합니다.

저는 반 유대주의, 반 시온주의자가 아닙니다. 종교도 무교 입니다.

다만 이스라엘-팔레스타인 전쟁 관련해서는 이스라엘을 반대합니다.

이스라엘 현지를 다녀왔던 지인의 얘기를 빌리자면,

"이스라엘-팔레스타인 국경에 철조망을 설치하는데 그걸 팔레스타인 현지 청소년들이 하고 있어. 어린애들이 장갑도 없이 일당 몇푼에 이스라엘 당국에 고용되어 자기네들이 자기네 땅에 선을 긋고 있어...이런 넌센스 이해가?"

처음에 이얘기를 들을때만 해도 무슨 그런 넌센스가 있냐 하면서 웃어 넘겼지만, 마음속엔 충격이 깊이 새겨져 있었나 봅니다.

왜냐하면 이슬람권 국가를 여행해본 경험이 있기 때문에, 현지인들의 일상생활들이나 청소년들의 실생활 역시 알고 있었기 때문에 그들의 아픔이 마음에 더 와닿았는지도 모릅니다.

그러던 어느날 한 기사를 접하게 되었습니다.

원본은 영국 저널인 Truth Seeker를 참조하시기 바랍니다.

이걸 접하는 순간 머리에서 'Bang!' 하더군요.

어떠한 이유로도 저 행위 자체는 정당화 될수 없습니다.

이 기사가 방아쇠가 되어 본격적으로 반이스라엘 관련 캠페인을 찾기 시작하였고, 유럽에서 시작한 BDS 캠페인을 알게 되었죠.

BDS 란 팔레스타인 평화연대 에서 제안한 이스라엘 제품 불매(Boycott), 투자회수(Divestment), 경제제재(Sanction) 운동의 약자입니다.

BDS 홈페이지는 여기를 참조하시기 바랍니다.(이스라엘 관련 제품 Boycott 은 여기 입니다)

그럼, BDS를 알기전에는? 그전은 스타벅스를 이용했었나? 라고 지인이 물어보는데, 그전에도 스타벅스는 잘 이용하지 않았습니다.

이전에는 다른 이유때문이었는데 바로 '중독성' 때문입니다.(중독성 관련 포스팅은 2편에 별도로 언급하겠습니다)

BSD 는 이스라엘과 관련된 상업용 제품뿐 아니라 학문과 관련된 학회도 보이콧 대상인데, 여기에 세계적 석학인 스티븐 호킹 박사도 참여하고 있습니다.

Zionism(시온주의), 이스라엘, 팔레스타인 그리고 유대인.

무턱대고 이스라엘을 반대하기 보다 왜 그들은 싸우는 것인지, 전쟁을 멈출순 없는지 해결책은 진정 없는지 좀더 알아야 할것 같아, 자체적으로 조사를 좀 해보았습니다.

짧게 이스라엘 역사에 대해 잠깐 얘기하자면,

잘 알듯이 유대인들은 고대 로마제국에 의해 멸망한뒤 민족이 뿔뿔이 흩어지게 됩니다. (유대-로마 전쟁)

디아스포라(離散) 의 뿌리가 여기서부터 시작된것이죠.

하지만 전세계에 흩어져 있던 유대인들의 Zionism (시오니즘)은 날이 갈수록 조직화 되고 구체화 되어갑니다.

오랜기간 타국을 떠돌면서 성지 예루살렘과 유대인 국가설립에 대한 그들의 간절한 갈망은 민족적 염원이되어 자손대대로 물려받게 되는 뿌리깊은 하나의 소망이 됩니다.

그러다 기회가 찾아오게 된것이죠.

세계 1차대전 발발.

강력한 힘을 자랑하던 오스만 제국이 영국,프랑스,러시아 등 당시 열강들 연합국에 패배하면서 영토가 강대국들에 의해 휴지조각 처럼 쪼개져 식민지가 됩니다.

팔레스타인도 오스만 제국 영토였으니, 자연스레(?) 열강들의 식민지가 됩니다.

이미 여러 강대국에 정착을 하고 민족 특유의 영리함으로 저마다의 영향력을 행사하고 있던 유대인들이 이런 절호의 기회를 놓칠리가 없었죠.

예루살렘과 수에즈 운하를 지키는데 있어 팔레스타인은 유대인 국가에 반드시 필요한 땅이었습니다.

이때부터 전쟁으로 아수라장이 된 팔레이스타인 땅을 유대인들이 자신들의 전재산을 주고 구입하기 시작합니다.

전재산? 돈이 문제가 아닙니다. 그들에게는. 민족적 염원이 실현되는데 돈이 중요하겠습니까.

그렇게 땅을 사모으기 시작했는데, 그곳에서 잘 살고있는 팔레스타인 현지인(아랍)들과 돈을주고 땅을 구입하여 정착한 유대인들과 충돌이 생기기 시작합니다.

어쩌면 당연한 충돌이였죠. 현지인과 이방인.

이들은 민병대까지 조직하여 서로 싸우기 시작합니다.

그렇게 잦은 충돌을 하는 와중, 영토를 조금씩 넓혀가던 유대인들이 1948년 한자리에 모여 마침내 이스라엘 건국선언을 합니다.

당시 팔레스타인은 물론 주변 아랍국가 들은 건국선언을 듣고 기가 찼던건 당연합니다.

아니, 이방인들이...그것도 우리 안방에서 깃발꼽고 자기네 국가를 세워?

사태가 이쯤되자 이집트와 이라크 등 아랍국가들이 연합하여 이스라엘을 공격합니다. (당연합니다. 2,000년전 자기네 땅이었다고 잘살고 있는 팔레스타인들 내쫓고 우리 땅이라고 얘기하니 아랍인들이 가만있겠습니까..)

제1차 중동전쟁 발발.

이스라엘이 승리합니다. 이후 약 40년에 걸쳐 총 4차까지 중동전쟁이 발발하지만 미국등 강대국들의 협조를 얻은 이스라엘이 모든 중동전쟁에서 승리합니다.

그러나 전쟁에서는 승리하였지만 이 여파로 인해, 팔레스타인 해방을 외치고 있는 소수 현지인들과 주변 아랍국, 그리고 이슬람(무슬림) 신도들의 나라를 되찾기 위한 싸움이 끊이질 않습니다.

혹자는 이것을 테러행위라고 비난하기도 하고, 또 어떤자는 이것을 혁명을 위한 순교라고 얘기하기도 합니다.

......

그리고 이러한 충돌이 지금까지 이어집니다.

예전엔 그나마 엇비슷한 전력이었으나, 근대에 이르러선 이스라엘의 전력이 압도적입니다.

사실상 계란으로 바위치기 입니다.

유엔의 휴전중재(미국의 소리)에 이스라엘은 유엔학교 공습(허핑턴 포스트)이라는 행동으로 답했습니다.

미국은 사실상 이스라엘의 전쟁범죄 행위를 허용하고 있는 나라 중 하나 입니다.

누구도 현재 이스라엘을 막을수 없어 보입니다.

그래서 시작된것이 BSD 운동입니다.

저의 작은 보수적인 행동 하나가 팔레스타인 청소년들에게 약간이라도 도움이 되었으면 하는 마음에 포스팅 합니다.

작은 행동이 나중에 나비효과로 나타날수 있기 때문입니다.

참조 사이트 :

BDS

보이콧 이스라엘 투데이

인마인즈

스타벅스 공식 의견

Truthseeker

스티븐 호킹 이스라엘 보이콧

윤성한의 닥치는대로 뉴스

위키피디아

NewsPeppermint-이스라엘-팔레스타인 분쟁

2014년 7월 10일 목요일

형태소 분석 및 품사 태거(PoS tagger) 비교.

개발중인 소프트웨어에 형태소 분석 및 품사태깅 기능이 필요하여 몇가지 품사태깅 솔루션을 테스트 중에 있는데, 진행상황 블로그에 간략히 공유합니다.

S/W 테스트 전에 자체적으로 요구사항을 만들어 해당사항이 충족되는 솔루션 위주로 테스트 제품군을 선정하였는데, 자체 요구사항은 다음과 같습니다.

1. 오픈소스 여부

2. 사용자 사전 지원 여부

상기 2가지 요구사항을 충족하는 솔루션으로 서베이를 진행하였고 서베이 결과 아래의 제품군들로 압축되었습니다.

A. MeCab

B. HanNanum

위의 솔루션은 모두 오픈소스(Apache, GPL)이며, 사전기반으로 작동하기 때문에 커스텀 사전을 제작할수 있다는데 의미가 있습니다.

각 솔루션별로 장단점을 파악해 볼까요?

MeCab 은 2006년 일본어 형태소 분석기에서 시작되어 2013년 한국어 분석기로 fork 되었습니다.

정식 프로젝트명은 은전한닢 프로젝트입니다. (https://bitbucket.org/eunjeon/mecab-ko)

지원 기능은, 형태소 파싱, 품사태깅, 개체명 추출 입니다.

게다가 현재 오픈 검색엔진의 양대산맥이라 할수있는 Solr 와 Elastic Search 모두 지원합니다.(Solr 의 경우 4.8.1 에서 동작 확인)

개발 환경은 아래와 같습니다.

지원 OS : Linux, Windows

개발언어 : C++

사전형식 : csv

개발 언어가 C++ 인데 Java 기반인 Lucene 검색엔진에서 어떤식으로 동작하느냐..저도 처음엔 이것이 궁금하여 소스를 들여다 보았는데, 의외로 답은 간단하더군요.

MeCab-Ko 는 Solr 와 Elastic Search 형태소 분석기에 JNI(Java Native Interface)를 사용합니다.

미리 mecab 시스템 라이브러리가 OS 에 설치되어 있어야 합니다.

개발자분이 Linux 용 configure, make tool 등을 모두 만들어 두었더군요. 소스 컴파일 하여 설치하면 됩니다.

단점이라면, Linux 시스템에 익숙하지 않은 사용자는 사용하는데 어려운점이 있을수 있겠군요.

그럼 이번엔 카이스트에서 개발한 HanNanum 분석기를 볼까요?

정식 사이트 주소는 (http://semanticweb.kaist.ac.kr/home/index.php/HanNanum) 입니다.

한나눔에서 이야기하는 특징은 아래와 같습니다.

지원 OS : Platform independent

개발언어 : Java

사전형식 : txt

지원 기능은, 형태소 파싱, 품사태깅, 명사 추출 입니다.

사용자 사전은 보시면 알겠지만, 매우 간단한 구조로 구성되어 있어 커스텀 제작에 편리하게 되어있습니다.

개발언어로 Java를 사용하다 보니 간단히 Eclipse 에 프로젝트 포팅이 가능합니다.

여기까지 각 S/W의 기술적인 백그라운드를 살펴보았고,

다음은 우리 모두가 궁금해 하는, 정확도에 대해 테스트 해보겠습니다.

제가 형태소 분석기를 테스트 할때 가장 먼저 시험 해보는 문장이 있습니다.

"아버지가방에들어가신다."

위 문장에 대해 정확한 형태소 분석을 하려면 어떤식으로 진행하여야 할까요?

아마도 언어학자는 위 문장의 형태소 분석 방법 만으로도 논문 몇편은 쓰고도 남을 것입니다. :)

다음은 테스트 결과 입니다.

1. MeCab

>> input 아버지가방에들어가신다

<< output

아버지 NNG,*,F,아버지,*,*,*,*,*

가 JKS,*,F,가,*,*,*,*,*

방 NNG,*,T,방,*,*,*,*,*

에 JKB,*,F,에,*,*,*,*,*

들어가 VV,*,F,들어가,*,*,*,*,*

신다 EP+EC,*,F,신다,Inflect,EP,EC,시/EP+ㄴ다/EC,*

2. HanNanum

>> input 아버지가방에들어가신다

<< output

아버지가방에들어가/unk+이/jp+시/ep+ㄴ다/ef

두 분석기에 대한 결과가 사뭇 다르게 나옵니다. 위의 결과로만 봐서는 MeCab 의 정확도가 HanNanum 에 비해 압승입니다. (주) 품사정의는 아래 링크 참조

그러나 당연한 이야기지만 정확도는 위처럼 간단한 문장만으로 판단해서는 안됩니다.

다양한 매체들로 다면 분석을 한후 평균치를 측정해야 하므로 여러번에 걸쳐 테스트를 진행합니다. 1차 분석대상은 뉴스와 블로그로 선정해보았습니다.

뉴스는 IT 관련 뉴스(지디넷 포스팅)로 블로그는 IT 와 관련이 없는 내용으로 분석을 해보았습니다.

아래는 데이터 샘플 입니다.

1. 지디넷 뉴스 (분석결과는 사람이 읽기 쉽게 일부 가공하였습니다)

원문	상용분석기 (S사)	MeCab	HanNanum
한국에서 IT분야 '남초현상'은 당연하게 여겨진다. 남자들만 우글거리는 사무실은 종종 유머의 소재로도 다뤄진다. 남초현상은 개발자 세계에서 더욱 두드러진다.	한국:한국:NNP 에서:에서:GAC IT:IT:ASCII 분야:분야:NN ':':PUNC 남초:남초:NN 현상:현상:NN ':':PUNC 은:은:GAX 당연하게:당연하다:AJ 여겨:여기다:VB 진다:지다:VB .:.:PUNC 남자:남자:NN 들:들:GAX 만:만:GAX 우글거리는:우글거리다:VB 사무실:사무실:NN 은:은:GAX 종종:종종:AD 유머:유머:NN 의:의:GAC 소재:소재:NN 로:로:GAC 도:도:GAX 다뤄:다루다:VB 진다:지다:VB .:.:PUNC 남초:남초:NN 현상:현상:NN 은:은:GAX 개발자:개발자:NN 세계:세계:NNP 에서:에서:GAC 더욱:더욱:AD 두드러진다:두드러지다:VB	한국 NNP,지명,T,한국, 에서 JKB,,F,에서, IT SL,,,, 분야 NNG,,F,분야, ' SY,,,, 남초 NNG,,F,남초, 현상 NNG,,T,현상, ' SY,,,,* 은 JX,,T,은, 당연 XR,,T,당연, 하 XSA,,F,하, 게 EC,,F,게, 여겨진다 VV+EC+VX+EF,,F,여겨진다, . SF,,,, 남자 NNG,,F,남자, 들 XSN,,T,들, 만 JX,,T,만, 우글거리 VV,,F,우글거리, 는 ETM,,T,는, 사무실 NNG,,T,사무실,Compound,,,사무+실, 은 JX,,T,은, 종종 MAG,성분부사/시간부사,T,종종, 유머 NNG,,F,유머, 의 JKG,,F,의, 소재 NNG,,F,소재, 로 JKB,,F,로, 도 JX,,F,도, 다뤄진다 VV+EC+VX+EF,,F,다뤄진다, . SF,,,, 남초 NNG,,F,남초, 현상 NNG,,T,현상, 은 JX,,T,은, 개발자 NNG,,F,개발자,Compound, 세계 NNG,,F,세계, 에서 JKB,,F,에서, 더욱 MAG,성분부사/정도부사,T,더욱 두드러진다 VV+EF,,F,두드러진다, . SF,,,,	한국에서 한국/unk+에서/jca IT분야 IT/f+분야/ncn '남초현상'은 '남초현상'/unk+은/jxc 당연하게 당연/ncps+하/xsms+게/ecs 여겨진다 여기/pvg+어/ecx+지/px+ㄴ다/ef . ./sf 남자들만 남자들/ncn+만/jxc 우글거리는 우글거리/pvg+는/etm 사무실은 사무실/ncn+은/jxc 종종 종종/mag 유머의 유머/ncn+의/jcm 소재로도 소재/ncn+로/jca+도/jxc 다뤄진다 다루/pvg+어/ecx+지/px+ㄴ다/ef . ./sf 남초현상은 남초현상/unk+은/jxc 개발자 개발자/ncn 세계에서 세계/ncn+에서/jca 더욱 더욱/mag 두드러진다 두드러지/paa+ㄴ다/ef

분석결과중 눈에 띄는것 위주로 살펴보겠습니다. 우선 복합명사(Compound noun) 분석결과 부터 볼까요.

상기 원문에서 '남초현상' 이라는 단어가 눈에 띕니다. 대표적인 복합명사로서 형태소 추출과 품사태깅이 어떤식으로 진행되었는지 살펴봅시다.

상용분석엔진 : 남초(일반명사:NN), 현상(일반명사:NN)

MeCab : 남초(일반명사:NNG), 현상(일반명사:NNG)

HanNanum : 남초현상(미등록 명사:unk)

상용분석엔진(이하 S엔진)의 형태소 분석기와 MeCab은 '남초' 와 '현상'의 두 형태소를 일반명사로 분석한 반면, HanNanum 분석기는 '남초현상'에 대해 미등록명사(unk)라는 결과를 출력 합니다.

HanNanum 은 사전에 있지 아니한 단어일 경우, 명사일것이라 추측하는 단어에 대해 미등록 명사(unknown) 태깅을 합니다. (주) HanNanum 플러그인 중, UnknownMorphProcessor 를 사용하면, 미등록명사(unk)를 자체적으로 판단하여 일반명사 와 고유명사로 태깅하여 출력함.

위의 경우 어떤결과가 맞는걸까요.

분석을 진행하고자 하는 Domain 별로 S엔진,MeCab의 결과가 정답이 될수도 있고, 또는 HanNanum의 결과가 정답일 수도 있습니다.

예를 들면, 문서를 색인하여 검색결과를 제공하는 검색엔진의 경우는 '남초현상' 이라는 단어가 문서내에 있을때 사용자가 '남초현상' 을 검색 하였을때 해당 문서가 검색결과로 나오는것은 당연한것입니다.

또한 '남초' 나 '현상' 으로 검색을 하여도 '남초현상'이 포함된 문서가 출력이 되어야 바람직 할것입니다.

그러기에 위의 S엔진,MeCab 분석기의 결과처럼, 복합명사인 '남초현상'을 형태소 단위로 쪼개어 '남초' 와 '현상', '남초현상' 3개의 단어로 색인하는 것이 검색엔진 입장에선 바람직합니다.

그러나, Domain 이 검색엔진이 아니라 특정 키워드에 대한 일자별 변화 추이를 살펴봐야 한다던지, 키워드 자체에 대한 분석을 요구하는 domain 일 경우, HanNanum 결과가 좀더 바람직합니다.

예를들면 후자의 경우, 상기 원문에서 의미있는 키워드 및 분석대상은 '남초현상' 그 자체 이지, 형태소 분석된 '남초' 나 '현상' 은 분석 대상에서 제외하는게 바람직합니다.

포털사이트 실시간 검색어 랭킹을 automated 한다고 하였을때 1위에 '남초현상' 이 있고, 2위에 '남초' 3위에 '현상' 이 있다고 생각해보세요 :(

이처럼, 형태소를 추출해야 하는 도메인이 별도로 있고, 형태소가 아닌 키워드 중심으로 분석해야 할 도메인이 있습니다.

이것은 무엇을 의미하는 걸까요.

이미 아시는분도 계시겠지만 업무성격에 따라 형태소 분석기의 정확도는 다른 방식으로 측정되어야 한다 입니다.

앞서 이야기 하였지만, 검색엔진의 경우 S엔진 과 MeCab 의 분석결과가 좀더 정확합니다.

그러나 포털사이트의 실시간 키워드 랭킹이나 원시 키워드에 대한 인터넷 파급력을 분석할 경우 HanNanum 의 분석결과가 좀더 적합합니다.

물론 각 S/W의 분석 결과를 제각기 업무에 맞게 재가공(커스터마이징)하여 쓸수도 있지만, 이경우 원시성 훼손 과 동시에 잠재적 버그 가능성을 한층더 높인다는 의미를 내포하기도 합니다.

이처럼, 업무성격에 맞는 S/W를 다양한 분석을 통하여 자신의 Domain 에 최적인 S/W를 선택하시기 바랍니다.

분석에 사용된 품사사전및 분석결과 원본파일은 여기 를 클릭하시면 확인 가능합니다.