Numerai 연습 : 정량 분석 ​​& amp; 재미와 수익을위한 머신 러닝

행동과 실습이 이론보다 낫다고 생각하고 머신 러닝 및 정량 분석 ​​분야에 대한 경험이 거의 또는 전혀없는 경우 (하지만 건전한 관심사),이 게시물이 귀하를위한 게시물 일 수 있습니다. 나머지는 한 가지 더 분산되고 오픈 소스가 될 수있는 가능성있는 미래를 살펴보세요. Wall Street .

여기에는 두 가지 주요 아이디어가 있으므로 두 가지 모두에 대한 조감도를 보여 드리겠습니다.

Numerai는 두 세계를 연결하고 원시 데이터를 제공하고 귀하와 나에게 더 나은 추정치를 제공하도록 요청하여 크라우드 펀딩 방식을 추가합니다. 그런 다음 이러한 예측을 사용하여 자본을 통제하고 최고 실적을내는 사람들은 기여에 대해 실제 돈을받습니다. 본질적으로 귀하의 예측을 새롭고 유용하게 유지하기위한 보상 및 처벌 시스템 인 자신의 자금을 스테이 킹하는 형태의 인센티브 (numerais 자체 암호 화폐 형태)가 있습니다. 이것은 복잡하지만 흥미로운 부분으로 지금은 시작하는 데 초점을 맞추지 않을 것입니다.

돈, 영광, 재미를 위해,하지만 대부분은 돈을 위해.

내 경험상 초보 데이터 과학자, 코더 또는 애호가가 시작하는 데 몇 주가 걸릴 것입니다.이 매우 짧은 기간이 끝나면 다양한 통계 및 인공 지능을 적용하는 실용적인 지식을 갖게됩니다. 플랫폼의 실제 문제에 대한 개념을 파악한 다음 자신의 관심사로 확장 할 수 있습니다. 경쟁적 측면과 재정적 인센티브는 학습하는 동안 집중하고 동기를 부여하는 데 도움이 될 수 있습니다. 단 1 달러를 만드는 데는 몇 달이 걸릴 수 있습니다.

참가할 계획이 없지만 전체 오픈 소스 월스트리트를 위해 온 경우 다음 두 섹션을 건너 뛸 수 있습니다.

실습 :

이것은 하나의 경로 (내가 택한 경로)에 불과합니다. 시작 지점에 따라 경로가 다를 수 있습니다.

example_model.py & amp; example_model.r : Numerai는 완벽하게 작동하고 작동하는 2 개의 예제를 제공하기에 충분히 친절합니다. 이들은 R 및 Python에서 기본 구현의 완벽하게 좋은 스프링 보드 및 작동 예제입니다. 2 빅 데이터 분석과 머신 러닝에 매우 인기있는 언어입니다. 처음에는 어리석게 신경망을 만들려고 시도했지만 컴퓨터는 여전히 회복 중입니다.

numerai_tournament_data.csv : 이 파일에는 몇 가지 항목이 있으므로 내부 항목부터 살펴 보겠습니다.

중요하게는 유효성 검사, 라이브 및 테스트 유형으로 구분되는 다양한 유형의 요소 또는 카테고리 (id)가 있으며, 각 요소에는 기능이 있고 시대 형식의 일부 날짜 정보가 있습니다. 대상 열은 모델이 이진수 (1 또는 0) 형식으로 예측할 것입니다. Numerai는 데이터를 난독 화하므로 이것이 금융 상품 (거래량, 시가, 종가 등일 수 있음)이라고 가정하더라도 명시 적으로 분명한 것은 없지만 id 12546의 기능 11은 지난 주 종가 (era2)의 주가를 나타낼 수 있습니다. 개 인식 문제에서 암 발생률이나 픽셀을 나타내는 데이터 세트는 동일하게 보입니다!

numerai_training_data.csv :

추가 데이터 세트 인 학습 세트도 제공됩니다. 교차 검증에 익숙하다면이 데이터 세트가 나타내는 내용과 사용 방법이 분명 할 것입니다. 간단히 말해 문제 정의와 그 해결책 ( 학습 세트 )이 주어지고 모델을 여기에 맞추고 새 데이터에 대한 솔루션을 일반화합니다 ( 공백 테스트 및 라이브 토너먼트 데이터 세트의 행 ) 및 예측을 수행하십시오. 이것은 훈련 용 바퀴가 달린 자전거를 타는 법을 배우고 (여기서는 모델입니다) 넘어지면 모델이 잘못되었을 때 바퀴없이 자전거를 타면서 기술 (예측)을 시도하는 것과 같습니다.

example_predictions.csv : 제출할 항목의 예, id 열 (numerai_tournament_data의 동일한 ID)입니다. csv) 및 id가 클래스 1이 될 확률 론적 예측이므로 모델의 대상은 이진수이지만 해당 대상에 대한 확률을 출력해야합니다.


이 시점에서 독창성, 일치 성 및 일관성에 대한 알고리즘은 오픈 소스가 아니지만 다음과 같이 설명됩니다 ( 토너먼트 및 제어 자본에 대한 자격을 갖추려면 특정 임계 값을 충족해야합니다 ).

일관성 : 시대에 걸친 로그 손실, 설명 예정. ( 75 % 상향 )

독창성 : 초기 제출자에게 유리할 수 있기 때문에 다소 논란의 여지가 있습니다. 예측 / 모델이 이미 제출되었는지 확인합니다. (합격 / 불합격 플래그)

일치 : 모든 데이터 유형에 하나의 모델이 적용되었는지 확인합니다. (합격 / 불합격 플래그)

모델이 이러한 측정 항목에 의해 사전 검증되면 실제 수익을 얻기 위해 실제 데이터에 대한 로그 로스로 점수가 매겨집니다.이 과정은 4 주가 소요됩니다. 스코어 보드는 모델이 실제 위치를 반영하지 않습니다. 토너먼트에서 장소. Numerai는 세부 사항을 말하지 않지만 상위 예측을 기반으로 한 메타 모델, 로그 손실에서 자체 모델 및 라이브 데이터에 가장 가까운 메타 모델을 암시합니다. 기간은 또한 더 긴 기간 동안 모델과 예측을 선호하는 역할을합니다. logloss는 주요 순위 측정 항목이며 이에 대해 아는 것이 중요합니다.

Logloss : (또는 로그 손실 ) <에 대한 등급별 통계 측정 값입니다. / strong> 귀하의 예측은 실제적으로 0.50과 같은 것은 임의의 추측을 나타내고 0.00은 완벽하게 확신하는 예측을 나타냅니다. 특정 결과에 대해 더 확신할수록 등급이 매겨집니다. 자전거) 실제로 자전거에서 떨어질 경우 더 많은 벌칙을받습니다. Numerai의 경우 내 예측에 대해이 정도 확신하므로 이해할 수 있습니다.

그렇습니다. 일단 설정이 준비되면 오픈 소스 인 여러 통계 모델과이 데이터를 분석하기위한 모든 기술 및 매개 변수 조합을 사용해 볼 수 있습니다. 시작하기 좋은 곳은 sklearn 라이브러리입니다. 그리고 그들의 모든 모델. 또한 지불되는 100 개 정도의 모델 내에서 순위를 매기는 것은 어렵고 많은 실험, 고급 기술 적용 및 일반적으로 데이터 세트에 대한 이해가 필요하므로 즉시 사용 가능한 모델을 사용하면 그리 멀지 않을 수 있습니다. .

전체 오픈 소스 월스트리트에 관심이있는 사람들은 여기에서 계속 읽고 있습니다. :

응용 머신 러닝 및 정량 분석에 들어가는 좋은 방법을 넘어서, Numerai는 금융 세계에서 더 크고 틀림없이 더 나은 무언가가 될 수 있습니다. 초기 단계이며 많은 신생 기업처럼 실험적인 측면에 있지만 상승 잠재력이 있습니다. 거기입니다. 헤지 펀드와 은행 산업은 전통적으로 헐리우드와 TV 네트워크가 영화와 쇼의 유일한 소스였던 것처럼, 유튜브는 소비자와 TV 모두에게 새로운 길을 제공 한 것과 같이 나쁜 평판을 가진 엘리트 폐쇄적이고 비밀스러운 장소였습니다. 콘텐츠 제작자

분산 된 오픈 소스 월스트리트는 다양한 재능과 아이디어가 기여할 수있게 해주고, 양복을 입는 것을 좋아하지 않는 개발 도상국의 독학 분석가는 월스트리트의 무거운 손길의 분위기가 생계를 유지하고 기여할 수 있습니다. 헤지 펀드. 학계의 연구원은 자신의 정규직이나 연구를 포기하고 싶지 않을 수 있지만 파트 타임으로 기여할 수 있습니다.

헤지 펀드 산업 전체의 소비자는 실험이 성공적으로 입증되면 이익을 얻을 수 있습니다.이 베팅은 집단 퀀트 크라우드 대 기존 산업의 지혜와 이러한 새로운 유형의 펀드의 성과에 달려 있습니다. 저는 개인적으로 어떻게 든 낙관적이지만 헤지 펀드 산업 (및 기타 투자)에서 일관된 긍정적 인 성과가 일반적으로 지수 접근 방식과 주식 선택 및 적극적인 관리를 선호한다는 것을 알고 있습니다. 따라서 결국에는 양자 접근 방식, 심지어 오픈 소스 방식의 접근 방식을 선호합니다. 그다지 수익성이 없을 수도 있습니다.

마지막으로 헤지 펀드 업계가 두려워 할 것이 없지만 평화롭게 공존하고 심지어 실험이 호의적으로 해결되면 기여할 것이라고 믿습니다. 기존 은행은 언젠가는 이러한 유형의 펀드를 경쟁적으로 육성 할 수도 있습니다. 새로운 생태계 (암호 화폐, 세계화, 웹)에 의해 촉진되는 미개발 투자 자본이 많기 때문에 모든 사람을위한 공간입니다. 다른 유사한 벤처 기업이 더 잘 포착 할 수 있습니다. 헤지 펀드 산업에 대한 우려 사항이 비용 문제라면, 현재의 2 및 20 수수료 구조 (자산에 대한 2 % 및 이익에 대한 20 %)는 두 가지 이유로 비싸다, 즉 인프라 (브로커)를 갖는 비용 , 분석가, 연구자, 백 오피스 등)과 참여를 제한하는 담벼락으로 둘러싸인 금융의 정원이이 공간에서 탈 중앙화 된 오픈 소스 헤지 펀드가 비용을 낮추고 경쟁 할 수 있으므로 앞서 언급 한 바와 같이 더욱 경쟁력있는 새로운 것을 볼 수 있습니다. 유형의 헤지 펀드가 나타나고 기존 자산이 조정되어야합니다.

이별 단어

저는 공간 부족으로 몇 가지를 남겨두고이 짧은 글을 온 보딩의 대안적인 방법으로 초점을 맞추고 싶었 기 때문에 이러한 유형의 펀드가 무엇을 예고 할 수 있는지 간략히 논의하고 어려움을 겪었습니다. 이 백서를 통해 스테이 킹에 대해 읽을 수 있으며 블로그에서 numerai를 확인할 수 있습니다.

또한 학습을 ​​시작하고 발전시키기위한 방법으로 여기에서 numerai, 기계 학습 및 정량 분석에 대한 kaggle 및 기타 저술을 언급해야합니다.

소규모 업데이트 :

(2017 년 10 월 1 일) 데이터 세트가 변경되어 이제 대략 두 배의 기능과 10 ~ 20K 더 많은 행이 있습니다. 즉, 기본 하드웨어를 사용하는 경우 (i3 4GB RAM HD Windows 시스템을 사용 중입니다) 일부 모델에서 메모리 오류가 발생할 가능성이 높으며 해결책은 서브 샘플링입니다. 또한 선착순 100 점 이내로 첫 NMR을 획득했습니다!

중간 크기 업데이트 :

(2017 년 12 월 25 일) Numerai는 이제 예측 점수를 매기기위한 소스를 출시하고 기타 사소한 변경 사항 및 비전 선언문과 함께 자동 제출을위한 API를 간소화했습니다. 로드맵, 자세한 내용은 여기를 참조하십시오 : Numerai의 마스터 플랜. 가장 중요한 것은 지불금이 이제 본질적으로 변경되었다는 것입니다 (NMR 증가, USD 감소). 저는 개인적으로 상위 50 – 60에서 어느 정도 일관되게 좋은 순위를 차지하고 있습니다.

2018 년 초반 업데이트 — 주요 변경 사항 :

토너먼트에 대한 지불금이 다시 한 번 변경되었습니다. NMR과 USD를 모두 획득하는 유일한 방법은 스테이 킹을 통해서입니다. 즉, 경쟁하려면 NMR을 스테이 킹해야하고 NMR을 구입하거나 원래 배포의 일부가되어야합니다. 이것이 프로젝트에 어떤 영향을 미칠지 아는 것은 이릅니다. 프로젝트가 본질적으로 변경되어 기준을 높이고 신규 이민자를 어렵게 만드는 눈으로 보면 시간이 이로 인해 프로젝트가 중단되는지 알 수 있습니다.

2018 년 중반 업데이트 — 추가 변경 :

현재 5 개의 다른 토너먼트가 있으며 지불 구조는 여러 복잡한 규칙 변경을 거쳤습니다. 현재 토너먼트에 대해서는 Numerai 페이지를 참조하십시오. 벤치 마크를 이길 때마다 0.1 NMR로 보상하는 새로운 평판 시스템도 있습니다. , (이전에 제출 한 공연 모델에 대한 달콤한 평판 보너스도있었습니다); 이제 NMR을 사지 않고 스테이 킹 할 수있는 경로가 생겼습니다. 너무 적은 금액이라고 생각하지만 더 많은 것을 제공하는 데 문제가 있음을 이해합니다 (예 : 봇).

저는 지속적으로 상위 20 위 안에 들었지만 이제 수익은 현재 암호 화폐 슬럼프와 함께 귀하의 지분, 귀하의 신뢰 수준 및 다른 플레이어의 수준과 연결되어 있습니다. 제 수입은 낮았습니다. 또한 에어 드랍을 이용하는 봇과 플레이어가 규칙을 악용하는 데 문제가있었습니다. 이러한 문제는 모두 Numerai에 의해 점진적으로 해결되어 복잡성과 규칙이 추가되었습니다.

면책 조항 : 방금 Numerai와 단기 계약직을 맡았습니다 (2018 년 8 월 -2018 년 10 월) Front End, UX 및 내가 할 수있는 다른 것. 나는 그 기간 동안 경쟁하지 않을 것이다…

2019 년 4 월 업데이트 :

내가 떠나고 다시 경쟁자로 돌아간 이후로 Numerai의 세계에는 꽤 많은 새로운 것들이있었습니다. 새로운 데이터, 새로운 토너먼트 (아직 5 개에 불과) 및 logloss 대신 새로운 측정 메트릭 (AUC)이 있습니다. 또한 훨씬 더 경쟁이 치열 해졌습니다 ( 나는 지금 상위 100-200 위 ). 대부분 플레이에 지불하고 참가자 당 지불금이 감소했습니다 (일반 상금 풀이 더 커졌지 만).

2019 년 7 월 업데이트 :

우리는 더 큰 데이터 세트와 여러 목표를 가진 1 개의 토너먼트로 돌아 왔습니다. 주요 점수 측정 항목이 다시 한 번 상관 측정 항목으로 변경되었습니다. 또한 장기적인 성과를 보상해야하는 새로운 지불 구조도 있습니다. 그것은 당신이 얼마나 많은 NMR을 스테이 킹하는지와 관련이 있으며, NMR의 초기 배포에 의해 원래 생성 된 모든 상황을 승자에게 영속시키는 불행한 부작용이 있습니다. 일부 사용자는 1,000 개의 NMR을 받았지만, 현재 평균 지불금은 데이터 과학자가 자금을 지원하면 (경쟁하려면 NMR을 구입해야 함) 1 대 1이며,이 낮은 지불금에 대한 위험을 감수하면 더 화가납니다. 이러한 모든 변화로 인해 프로젝트에 대한 저의 원래 열정을 재평가해야합니다 (이 유형의 프로젝트는 아님). 중간에있는 것처럼 ( 나는 여전히 상위 100 위 ).

감사합니다!

케노

저자 정보 :

Eugenio Noyola Leon (Keno) 출생 저는 현재 멕시코 시티에 거주하는 디자이너, 웹 개발자 / 프로그래머, 아티스트 및 발명가입니다. www.k3no.com에서 저를 찾을 수 있습니다.