태그 보관물: Ruby on Rails

C언어로 API 서버 개발, 생각보다 나쁘지 않아요

지난 이음 API 개선에 관한 포스팅 <아파치 모듈로 개발된 API 서버, 이음 베이론을 소개합니다> 를 기억하시나요? 이 포스팅이 올라온 후 이음 개발팀 블로그에는 독자 여러분들의 뜨거운 관심(?)이 빗발쳤습니다. (그리고 아직까지 이 정도의 뜨거운 관심을 받은 포스트는 아직 나오지 않고 있습니다…) C언어로 API를 개발한다는 이야기에 흥미롭다는 반응도 있었지만 아무래도 걱정어린 시선이 많았습니다.

사실 말하자면 저도 루비, 파이썬을 비롯한 고급 언어들의 팬입니다. 그동안은 PHP나 Java (Spring) 같은 옛날 언어로 개발을 해왔지만, 처음 루비 온 레일즈를 접하고 그 깔끔함에 반해서 아직도 뭔가를 개발할 일이 있으면 최대한 레일즈를 쓰고 있구요. 과거 Spring을 쓰면서 직접 설정해줘야 했던 수많은 잡일들을 떠올리면서 ‘그동안 나는 뭘 한걸까…’ 하는 기분을 느꼈습니다. 그렇게 레일즈와 즐거운 시간을 보내던 중, 담당 프로젝트가 변경되면서 저는 C언어로 API 서버를 개발해야 하는 운명에 처하게 되었습니다.

으아니

이게 무슨 소리요! 내가… 내가 C 개발이라니!

처음에는 너무 막막했습니다. 레일즈를 써보신 분은 알겠지만, 기타 잡다한 부분은 프레임웍이 다 해주기 때문에 로직만을 작성하는 데에 익숙해져 있었거든요. 그런 저에게는 모든 것을 직접 해야만 하는 C언어 개발은 조금 불편하긴 했지만 결론적으로, 써보니까 생각보다 나쁘지 않았습니다. 다른 분들이 생각하시는 것처럼 유지보수 헬게이트도 아니구요. 무엇보다 성능이 모든 것을 용서합니다. 아무튼 자세한 이야기는 차차 해보기로 할게요.

Apache Portable Runtime

C 언어를 서버로 개발한다! 라고 하면 사람들은 포트 여는 것부터 response writing까지 모두 로우 레벨에서 처리해야 할 거라고 생각하지만, 다행히 그 정도까지는 아니었습니다. 이음의 API 서버 개발은 APR (Apache Portable Runtime) 이라는 큰 프레임웍 위에서 돌아가고 있습니다. 엄밀히 말하자면 프레임웍이라기보다는, 웹 서버인 아파치와 이음의 비지니스 로직을 연결해주는 라이브러리라고 할 수 있겠네요. 여튼 APR 덕분에, C 프로그래밍은 생각만큼 괴롭지 않습니다. APR의 홈페이지 메인을 보면 아래와 같이 이야기하고 있습니다.

“The mission of the Apache Portable Runtime (APR) project is to create and maintain software libraries that provide a predictable and consistent interface to underlying platform-specific implementations” – APR 프로젝트의 목적은 플랫폼 의존적인 구현에 대한 예측 가능하고 일관적인 인터페이스를 제공하는 소프트웨어 라이브러리를 만드는 것이다.

즉, 사용하는 하드웨어와 OS에 상관 없이 상위 레벨의 구현에만 신경쓸 수 있도록 만든 라이브러리가 바로 APR이라는 의미입니다. (자바의 “Write once, run everywhere” 의 향기를 느낀 건 저 뿐일까요?) 그래서 APR을 사용하면 네트워크 관련 low level operation (HTTP 헤더를 파싱한다던지, 파라미터를 읽어서 저장한다든지) 에 대해서는 신경쓰지 않아도 됩니다. 프로그래밍에 필요한 기초 자료 구조 (list, hash table) 도 라이브러리에 포함되어 있습니다.

무엇보다 매력적인 것은 APR의 메모리 풀 관련 기능입니다. 이 메모리 풀 라이브러리는 C 언어 개발에서 아주 골치아픈 메모리 할당 / 해제 문제를 해결해줍니다. 구체적으로 이야기하자면, APR을 사용하여 메모리를 할당 (apr_pcalloc 함수를 사용) 받으면, 클라이언트에 response를 보내줄 때 자동으로 풀에 할당된 메모리들을 해제해준다는 것입니다. 멋지지 않나요? 아무튼, APR의 은총 덕분에 상당히 많은 부분들을 라이브러리에 의존하면서 개발할 수 있습니다.

정적 타입의 강점

런타임에 변수의 타입을 결정하는 동적 타이핑 기반의 언어인 루비나 파이썬과는 달리, C는 컴파일 타임에 타입을 체크합니다. 타입이 맞지 않으면 오류를 내면서 컴파일조차 잘 되지 않습니다. 이 부분이 스크립트 언어를 주로 사용하던 프로그래머들에게는 불편할 수 있습니다. 하지만 저는 타입 안전성을 컴파일 타임에 확인할 수 있다는 점은, 프로그램의 안정성에 매우 큰 부분을 차지한다고 생각합니다. (물론 C 언어가 타입 안전성을 완벽히 보장하는 언어인지 묻는다면 물론 아닙니다. 하지만 컴파일 타임에 타입 체크가 불가능한 언어에 비해서는 분명한 강점을 가지고 있다고 생각합니다.) 타입 안전한 언어에서는 컴파일 타임에서 에러가 나지 않으면 로직에 문제가 있지 않은 이상은 잘 작동하죠. 버그는 있을 수 있지만 프로그램이 죽는 일은 없습니다. 또한 성능도 뛰어납니다.

compiling

그만큼 컴파일에 시간이 걸리긴 하죠. (물론 짤방정도는 아님)

Performance, Performance, Performance

APR을 사용하여 개발한 API 서버의 성능은 그야말로 압도적입니다. 기계어로 컴파일 되니까요.

Screenshot at Jan 21 16-36-24

더 이상의 자세한 설명은 생략한다

 

물론, 당연하지만, C 개발이 장점만 있지는 않습니다.

 

 

Reinventing the wheel

회사의 모 님이 저에게 물었습니다. “C 언어로 API 개발하는 거 어떤가요?” 저는 대답했더랬죠. “바퀴를 재발명하고 있는 것 같아요.” 그렇습니다. C 언어에는 그 흔한 ORM조차 없습니다. C 언어 자체가 객체지향적인 특성이 거의 없는 절차 지향적 언어이기 때문에, ORM을 만들어서 쓴다 해도 영 불편하죠. 덕분에 쿼리를 쓰고, 전송하고, 결과를 확인하고, 데이터 구조에 저장하는 등의 일들을 직접 한땀한땀 해야 합니다. 물론 공통되는 부분은 함수로 만들어서 재사용할 수 있지만, 누군가가 만들어 놓은 라이브러리를 가져다 쓰는 것에 비하면 개발 속도가 느려질 수밖에 없습니다. (그만큼 좀 더 시스템 하층 구조에 대해 깊게 알 수 있다는 장점은 있습니다.) 하다 보면 “꼭 이런 걸 일일이 해줘야 하나..”  란 생각이 들 때도 있습니다. 그리고 이건 개개인의 취향이겠지만, 저는 누군가가 만들어 놓은 소스 코드를 제가 다시 만드는 일이 그렇게 재미있지만은 않더라구요.

car and wheel

좀 이런 느낌…

라이브러리 뿐만 아니라 배포나 디버깅, 에러 리포팅, DB조회 등등 전반적인 개발 환경 역시 덜 자동화되어 있기 때문에 만약 자동화시키고 싶다면 직접 제작하는 수밖에 없습니다. 일례로, 레일즈 어플리케이션을 개발할 때는 모델 클래스를 잘 만들어 두면 데이터베이스 조회를 레일즈 콘솔을 통해 거의 다 할 수 있었으나, C 기반 개발을 할 때는 특정 데이터를 조회하거나 업데이트할 때에는 SQL을 직접 작성하는 수밖에 없습니다. 만약 조인을 해야하는 상황이라면 그 번거로움은 배가 되고 쿼리문이 길어질 수록 중간에 실수를 해서 개발 속도가 느려질 가능성은 커집니다. SQL에 익숙하지 않은 개발자라면 더 심하겠죠. 익숙하지 않은 DBMS를 사용한다면 더더욱 그럴테구요.

생산성

“C 언어는 생산성이 안좋다.” 라는 생각을 많이들 가지고 계신 것 같더군요. 제가 생각하기에, 생산성이라는 것은 몇 가지 측면으로 분류할 수 있을 것 같습니다. (물론 이거 말고도 더 있겠죠?)

  1. 같은 길이의 코드로 얼마나 더 많은 일을 할 수 있는 지
  2. 주어진 스펙을 얼마나 빠르게 개발할 수 있는 지
  3. 유지보수가 얼마나 용이한 지

1에서 당연히 C 언어는 루비에 비해 크게 뒤쳐질 수밖에 없습니다. 언어 자체의 특성도 그렇고, 외부 라이브러리의 사용도 쉽지 않으니까요. 하지만 제가 둘 다 경험해보니, 2의 측면에서 C 언어가 결코 루비에 비해 많이 뒤쳐지지는 않는 것 같습니다. 제가 조금 더 C 언어에 숙련된 프로그래머라면 그 격차는 더 줄어들겠죠? 그 이유는 다음과 같습니다.

  1. C에서는 쓸만한 외부 라이브러리가 많지 않습니다. 하지만 외부 라이브러리를 덜 가져다 쓴다는 말은 그만큼 관련 문서들을 찾아보는 데에 시간이 덜 걸린다는 이야기도 됩니다. 따라서 IDE와 웹브라우저 사이에서의 컨텍스트 스위칭에 시간을 덜 쓸 수 있습니다.
  2. 컴파일 언어라는 특성에서 비롯되는 IDE의 도움이 강력합니다. (자동 완성, 타입 체크, 오류 점검 등)
  3. 컴파일이 되기 때문에, 개발에는 시간이 더 걸릴 수 있지만 테스트와 디버깅에는 시간이 덜 걸립니다.

3의 경우에는 현재 상태에서는 말하기 힘든 부분이 있습니다. 왜냐하면 지금까지 C 언어를 통해 개발된 프로젝트들은 (1) 안정화되어서 커다란 스펙 변경이 없는 경우, (2) 신규 프로젝트라서 스펙이 미리 정해져 있는 경우, 둘 중 하나였기 때문입니다. 추후 애자일한 과정을 통해 잦은 스펙 변경이 있어야 할 때에 C 언어가 얼마나 유지보수가 용이한 지는, 조금 더 지켜보고 말씀드려야 할 것 같습니다. 다만 개인적으로는 코드 양이 더 많기 때문에 유지보수가 더 어렵지 않을까 하는 막연한 추측을 하고 있습니다. 아마 프로젝트 규모가 커질 수록 더하겠죠?

 

결론

 APR을 사용하면 C 언어로 모바일 API를 작성하는 일도 그렇게 어려운 일은 아닙니다. 약간 불편하기는 하지만 프로덕션 레벨에서 쓸 수 없을 정도는 아니고, 그만큼 우월한 성능을 얻을 수 있기 때문에 만약 스펙이 자주 바뀌지 않고 C 언어와 APR 기반 개발에 익숙하다면 시도해볼만 한 가치가 있는 것 같습니다.

지난 번 포스팅에서 많은 분들이 “CPU 사용률을 보면 사실상 CPU가 병목은 아닌 것 같다”고 지적해 주셨습니다. 웹 어플리케이션의 속도가 DB 속도에 의존적인 것은 사실입니다. 하지만 DB 병목보다는 어플리케이션 레벨에서의 불필요한 오버헤드 (정확히 말하자면 Hibernate의 eager loading) 역시 큰 속도 저하의 원인이었습니다. 이를 수정하기 위한 노력을 기울였지만 결국 포기하고 주요한 속도 저하의 원인이었던 ORM을 버리고 서버를 다시 개발하기로 결정하게 된 것입니다. 물론 이게 절대적으로 최선의 선택이었다고는 하기는 힘들지만, 목표한 성과를 이뤘다는 점에서 긍정적이라고 생각합니다.

모든 프로그래밍 언어와 프레임웍은 각자 제 용도에 맞는 쓰임새가 있다고 생각합니다. (너무 모범적인 결론이지만) 이음의 API 서버는 현재로서는 큰 설계의 변화나 스펙의 변화가 없기 때문에 유지 보수가 조금 불편하더라도, 퍼포먼스를 끌어낼 수 있는 C 언어를 사용했죠. 그리고 애초 의도했던 바와 부합하는 효과를 얻었습니다. 특히나 모바일 API 쪽은 HTML 페이지를 렌더링하는 웹 서버와 비교하더라도 많은 기능이 필요하지 않습니다. 만약 웹 서버를 개발하는 일이었다면 string 관련 함수들이 불편한 C를 사용하지 않았을 것입니다. 어떤 언어(프레임웍)을 쓰는 지도 중요하지만 지금 사용하고 있는 도구가 목적에 맞는 지도 중요하지 않을까요?

하지만 무엇보다도 개발자에게 그 도구가 얼마나 손에 익은 도구인지도 중요한 것 같습니다. 아무리 좋은 도구가 있더라도 사용할 줄 모르면 무용지물인 것처럼요. 이음에서는 APR 환경에서 오랜 시간동안 개발을 해왔던 개발자 분이 계셨고 그 분이 첫 삽을 뜬 덕분에 다른 분들이 수월하게 개발을 시작할 수 있었던 것 같습니다. 그리고 개발자들이 대부분 컴퓨터 공학 전공 베이스를 가지고 있었던 덕분에 C 언어를 생소하게 느끼지도 않았구요. 이 글을 읽고 APR 도입을 고려하고 계시다면, 이 점을 다시 고려해보세요 🙂

 About the use of language: it is impossible to sharpen a pencil with a blunt axe. It is equally vain to try to do it with ten blunt axes instead ; 프로그래밍 언어의 사용에 관하여: 무딘 도끼를 가지고 연필을 깎는 일은 불가능하다. 무딘 도끼 10개를 가지고 시도한다고 해도 결과는 마찬가지다.  – E. W. Dijkstra

 

TabsSpacesBoth

그래도 한 프로젝트에 여러 언어는 섞어 쓰지마세요. 술 섞어 먹는거랑 똑같습니다. 먹을 때만 행복

 

Screenshot at Jan 21 18-52-44

 

MongoDB를 쓰면서 알게 된 것들

최근 이음의 글로벌 프로젝트 Hey에서는 많은 수의 유저들에 대한 매칭을 원활하게 처리하기 위해 가장 많이 쓰이고 있는 NoSQL 스토리지 중 하나인 MongoDB를 도입했습니다. RDBMS에 익숙했던 개발자들 입장에서는 굉장히 낯선 부분들이 많았지만 여러가지 시행 착오들을 겪으면서 어느 정도 안정화된 상태로 사용할 수 있게 되었습니다. 1년 전쯤에 개발자 커뮤니티에서 화제가 되었던 Things I wish I knew about MongoDB a year ago 라는 글이 있었습니다. 이번 글에서는 이음에서 MongoDB를 쓰면서 겪었던 여러가지 이야기들을 풀어내 봄으로써, MongoDB 엔진 도입을 검토하고 있는 개발자 분들, 더 넓게는 NoSQL 기술에 관심이 있는 개발자 분들과 다양한 의견들을 나눌 수 있었으면 합니다.

 

mongo-db-huge-logo

MongoDB가 뭔가요?

MongoDB는 10gen (최근 MongoDB로 사명이 변경되었습니다.) 에서 만든 document 기반의 NoSQL 스토리지입니다. 엔진은 C++로 작성되었으며, 오픈 소스입니다. 대표적인 특징으로는 다음과 같은 것들이 있습니다.

– Document-Oriented Storage : 모든 데이터가 JSON 형태로 저장되며 schema가 없습니다.
– Full Index Support : RDBMS에 뒤지지 않는 다양한 인덱싱을 제공합니다.
– Replication & High Availability : 데이터 복제를 통해 가용성을 향상시킬 수 있습니다.
– Auto-Sharding : Primary key를 기반으로 여러 서버에 데이터를 나누는 scale-out이 가능합니다.
– Querying : key 기반의 get, put 뿐만이 아니라 다양한 종류의 쿼리들을 제공합니다.
– Fast In-Place Updates : 고성능의 atomic operation을 지원합니다.
– Map/Reduce : 맵리듀스를 지원합니다.
– GridFS : 별도 스토리지 엔진을 통해 파일을 저장할 수 있습니다.

 

RDBMS로는 안되나요?

Hey에서는 모든 회원들을 상대로 하루 3개 이상의 매칭을 제공합니다. 하나의 매칭을 RDBMS에서 하나의 row로 생각하면, 하루에 회원 수 * 3개의 row가 추가되는 것이죠. (게다가 어른의 사정(?) 때문에 실제로는 더 많은 수가 추가되는 경우가 대부분입니다.) 이렇게 1년이 쌓이면 회원 수 * 1000개가 되겠죠? 유저가 10만이면 1억입니다. 이렇게 많은 숫자의 매칭을 관리하기에 RDBMS는 한계가 있다고 판단되어, scale-out이 가능한 MongoDB를 사용하게 된 것입니다. 사실 처음엔 Apache HBase를 사용하려고 헀으나, HBase는 다음과 같은 문제가 있었습니다.

– Rails 어댑터의 부재 : Hey의 API 서버는 Ruby on Rails를 사용하여 개발되었습니다. Rails에서 HBase를 사용하기 위한 gem인 massive_record가 있긴 했지만, 프로덕션에서 사용하기엔 갈 길이 멀어 보였습니다. (HBase 자체의 문제는 아닙니다.)

– Hadoop의 도입 비용 : 개발팀 내에 Hadoop 경험자가 거의 없어서 클러스터 관리가 어려웠고, Hadoop 자체가 기본적으로 많은 (2~3대 이상) 머신들을 필요로 합니다.

– 미약한 Index 기능 : HBase는 거의 key-value 스토리지처럼 작동하기 때문에 다양한 쿼리들을 실행하기 위해서는 데이터를 full scan해야만 하므로, 스토리지 전체의 성능을 저하시킵니다.

이런 이유때문에 Hey에서는 매칭 데이터 및 document형 데이터는 MongoDB에, 기타 관계형 데이터는 MySQL에 저장하도록 구현하였습니다.

서론이 길었네요 🙂 이제부터 본격적으로 시작해 보도록 하겠습니다.

 

1. Indexing이 자유롭습니다.

MongoDB에서는 가장 많이 쓰이는 RDBMS인 MySQL에서 지원하는 대부분의 인덱스를 지원합니다. 지원하는 인덱스의 목록은 대략 다음과 같습니다.

– Single Field Indexes : 가장 기본적인 인덱스 타입
– Compound Indexes : RDBMS에서 많이 쓰이는 복합 인덱스
– Multikey Indexes : Array에 매칭되는 값이 하나라도 있으면 인덱스에 추가하는 멀티키 인덱스
– Geospatial Indexes and Queries : 위치 기반 인덱스와 쿼리
– Text Indexes : String 컨텐츠에도 인덱싱이 가능
– Hashed Index : BTree 인덱스가 아닌 Hash 타입의 인덱스도 사용 가능

이처럼 강력한 인덱스 기능 덕분에 거의 모든 쿼리들을 빠르게 처리할 수 있습니다. 이는 MongoDB를 선택한 가장 큰 이유인 동시에, 다른 NoSQL들에서는 찾아보기 힘든 장점이기도 합니다.

 

2. 많은 데이터를 한꺼번에 insert하면 안됩니다.

Row 단위의 락을 지원하는 대부분의 RDBMS와는 달리 MongoDB에서는 데이터베이스 단위의 락을 사용합니다….. 뭐..뭐라구요?

e0020102_03085040

기존의 RDBMS 사용자들에게는 그야말로 충격과 공포죠.  하지만 여기서 끝이 아닙니다. MongoDB에서는 데이터베이스별로 Read Lock과 Write Lock이 있는데, read lock은 여러 개의 operation에서 공유가 가능하지만 write lock은 하나의 operation만이 사용할 수 있으며 (중간에 read operation도 허용하지 않습니다.) write lock은 항상 read lock보다 우선권을 갖습니다. 즉, read operation과 write operation이 동시에 queue에서 대기하고 있으면 항상 write operation이 실행된다는 것입니다. 따라서 MongoDB에서 대량의 데이터 (수만 이상) 를 한꺼번에 insert하면, DB가 insert의 수행때문에 다른 작업을 수행하지 못하게 됩니다. 장비를 정지합니다. 아..안되잖아?

따라서 지금 Hey에서는 대량의 insert 시에는 항상 수천 개 정도의 작은 단위로 쪼개어서 실행하고 있습니다. 그나마 MongoDB의 write가 메모리에 쓰는 방식이기 때문에 RDBMS에 비해 성능 저하는 덜하고, 긴 operation의 경우 lock을 양보하기도 하지만 (자세한 내용은 공식 문서를 참조) 그래도 찜찜한건 사실입니다.

 

3. 쿼리 문법이 불편합니다.

JSON 기반의 데이터베이스인데다가 NoSQL이기 때문에, 쿼리를 작성할 때 JSON으로 작성해야 합니다. 우선 간단하게 range 쿼리입니다.

아직까진 나쁘지 않죠? 여기에 and 조건을 좀 넣어볼까요?

이제 여기서 여러개의 조건들을 boolean operator로 묶으면…

슬슬 눈에 안들어오기 시작합니다. 하지만 진짜 최종보스는 SQL의 group by와 유사한 aggregation pipeline입니다.

daetul_mung

이런 쿼리를 쓰다가 괄호라도 하나 삐끗하면…

 

멘붕
대략 이런 기분을 느낄 수 있습니다.

그나마 예제라 조금 간단한데, 제대로 format 맞춰서 조금 복잡한 쿼리를 짜기 시작하면 열줄이 넘어가는 경우도 허다합니다. (실제로 Hey 통계 페이지에는 수십 줄짜리 쿼리가 있다는 소문이…) 개발자들은 배워서 쓰고 익숙해지다보면 어느 정도 해결 되는 문제이지만, 서비스 기획자들이 개발자를 통하지 않고 통계를 내보기는 쉽지 않습니다. 이런 쿼리를 실제로 쓸 일이 있냐구요? 네….  있더라구요.

물론 NoSQL이라 조인이 안되는건 보너스입니다. 모든 쿼리는 단일 콜렉션 내에서 해결하셔야 합니다. 

20111216171940

야! 신난다!

 

4. Subdocument가 계속해서 늘어날 땐 별도의 collection으로 만들고 인덱스를 거세요.

Join이 안되는 MongoDB에서 1:N 관계를 표현할 때에는 referencing과 embedding의 두 가지 방법이 있습니다.

예를 들어 여러 명의 여자친구가 있는 어떤 남자를 document로 표현한다고 생각해봅시다. (예제니까요) 그럼 아마 male 콜렉션에는 이런 데이터가 있을 것입니다. 

(1)번의 referencing으로 이 남자를 표현해 보겠습니다.

(2)번의 embedding은 관계가 있는 문서를 상위 document에 포함해버리는 방법입니다. 아래처럼요.

하지만 둘 다 계속해서 girlfriends의 숫자를 늘리는 데에 좋은 방법은 아닙니다. (말이 좀 이상하지만) 그 이유는 다음과 같습니다.

(1) MongoDB의 document는 최대 size가 제한되어 있습니다. Default는 16MB이고 조정이 가능하지만, 계속해서 늘릴 수는 없습니다.

(2) Document의 크기를 늘리는 operation은 새 document를 insert하는 operation에 비해 매우 느립니다. 사실 이는 MongoDB 내부에서 document growth를 다루는 방식의 문제이기 때문에 size가 늘어나는 모든 document에 해당되는 문제입니다.

따라서 1:N의 관계를 표현할땐 다음처럼 전통적인 RDBMS의 방법을 사용하는 것이 좋습니다.

물론 female 콜렉션의 male_id에 인덱스를 걸어두는 게 성능이 좋겠죠? 이렇게 하면 두 콜렉션을 동시에 가져올수는 없고, 두 콜렉션을 별도로 가져와서 어플리케이션 레벨에서 조인을 수행해야하는 슬픔이 있습니다… 역시 세상에 공짜같은건 없다는 진리를 다시 한번 느낄 수 있죠.

 

5. ActiveRecord와의 연동이 깔끔하지 않습니다.

Hey에서는 Ruby on Rails의 RDBMS 기반 ORM인 Activerecord와, MongoDB기반 ORM인 Mongoid를 동시에 사용합니다. 따라서, 당연하게도, ActiveRecord object에서는 mongoid와의 association을 선언할 수 없습니다. 따라서 다음과 같은 임시방편이 필요합니다.

이정도면 그나마 간단한 경우입니다. 만약 ActiveRecord object 하나와 연결된 여러 개의 Mongoid object를 하나의 transaction으로 묶어서 destroy해야 한다면 어떨까요?

그럴 듯 해보이나요? 하지만 위의 코드는 User를 지우다가 exception이 발생하면 Avatar만 지워지고 User만 남아있는 무시무시한 사태가 발생하게 됩니다. 이런 경우를 모두 생각해야 해서, 두 모델을 섞어서 쓰는 것은 그리 간단하지 않습니다. 쿼리도 마찬가지입니다. Avatar를 3개 이상 가진 User를 모두 반환하는 쿼리는 어떻게 작성하면 될까요? 이건 읽는 분들의 상상에 맡기도록 하겠습니다…

Tenacity같은 gem을 사용하면 조금 더 깔끔하게 되지 않을까 하는 생각도 들지만, 사용해보지 않아서 이렇다 할 말씀은 드리기가 힘드네요. 개인적인 판단으로는 redis와 같은 caching 용도를 제외하고 하나의 어플리케이션에서 두 가지 이상의 데이터베이스를 동시에 사용하는 것 자체가 여러 언어를 사용해서 하나의 어플리케이션을 만드는 것처럼 헬게이트를 여는 일인 것 같습니다. 잘 생각해보시고 정말 필요한 경우가 아니라면 다시 한번 고려해보시길 권고드립니다.

 

맺음말

쓰고 나니 MongoDB의 단점만 잔뜩 늘어놓은 것 같은 기분이 드는 건 기분 탓일까요? ^^; 아무래도 RDBMS에 익숙한 대부분의 개발자들에게 NoSQL은 너무 안되는 게 많은 스토리지처럼 보이는게 현실인 것 같습니다. 개인적인 경험에 비추어 보았을 때에는 MongoDB를, 더 나아가서 NoSQL을 도입할 때에는 스토리지 엔진의 특성을 잘 파악하고 꼭 필요한 경우에만 도입하는 것이 정답인 것 같습니다. 제가 생각하는 MongoDB가 적합한 케이스는 다음과 같습니다.

(1) Schema-free 한 데이터 구조가 꼭! 필요한 경우
Schema가 없다는 건 RDBMS에서는 얻기 정말 힘든 장점임에 틀림없습니다.

(2) Collection간의 관계가 그다지 긴밀하지 않을 경우
다른 collection과의 조인이 지옥이라는 건 위에서 충분히 보여드린 바 있죠….

(3) Insert 된 이후에는 document growth가 잘 일어나지 않는 경우 : document growth는 느립니다.

(4) Sharding이 꼭! 필요한 경우
개인적인 경험으로는 row 수가 억단위가 되지 않는 이상은 RDBMS의 인덱스 최적화와 테이블 파티셔닝으로 충분히 커버가 가능하다고 생각합니다. 사실 Hey에서 매칭 데이터를 MongoDB에 저장하기로 한 것도 매칭 수가 억단위를 넘어갈 경우를 생각해서였습니다만……

slamdunk

Hey에서 sharding이 필요할 정도로 row 수가 많아지는 일은 없었습니다…… (아직까지는요)

(5) 다른 데이터베이스와의 연결이 없이 MongoDB만으로 충분한 경우

 

그냥 하루빨리 오픈소스 진영에서 scale-out이 가능한 RDBMS를 내놓았으면 하는게 개인적인 바람입니다.

긴 글을 여기까지 읽어주신 분들께 감사드립니다. 끝으로 NoSQL에 대해 읽어볼만한 몇 가지 글들의 링크를 남기고, 저는 이만 물러가도록 하겠습니다.

 

NoSQL은 생각보다 쓸만하지 않다

Why does Quora use MySQL as the data store instead of NoSQLs such as Cassandra, MongoDB, or CouchDB?

Cassandra vs MongoDB vs CouchDB vs Redis

 

1425563_647984125251871_1119116285_n

Lethe

서버 사이드 기술과 데이터 핸들링 부분에 관심이 많은 초보 개발자입니다.
이것 저것 많이 공부해보고 있는데 공부할 건 많고 시간은 없고 몸뚱아리는 게을러서 슬프네요.