논문 3줄 요약 Improving Portfolio Performance via Natural Language Processing Methods

논문 3줄 요약 Improving Portfolio Performance via Natural Language Processing Methods

2022, Apr 21    
Improving Portfolio Performance via Natural Language Processing Methods

[논문 3줄 요약] Improving Portfolio Performance via Natural Language Processing Methods

Written by JunPyo Park

Improving Portfolio Performance via Natural Language Processing Methods

Di-Jia Su, John M. Mulvey and H. Vincent Poor (멀비 교수님 연구실)

The Journal of Financial Data Science Spring 2022, jfds.2022.1.088;

1. NLP 여러 분야에서 활약중

2. 트위터 + NLP(BERT 모델) 기술을 활용하여 mean-variance 프레임워크에서 쓰이는 mean return과 covariance matrix의 추정 방식을 개선

<img src = https://trello.com/1/cards/5fbb135a2a4a0409baa86e9c/attachments/6260bbf62e8c5563ab40b456/download/image.png width='600'>

Covariance Matrix는 위와 같이 Sigma_sample 과 Sigma_embeddings를 파라미터를 통해 합하여 개선되는데 Sigma_sample은 기존 mean-variance 에서 look back period 기간을 통해 추정되는 행렬이고 Sigma_embeddings 이 텀이 추가되는 행렬인데 covariance 계산할 때 시계열의 상관계수가 아닌 텍스트의 상관계수가 들어감

앞에 빌드업을 보면 최신 language embedding은 “king” − "man" + "woman" = Queen 과 같이 언어가 가지는 특성을 벡터 공간에 잘 옮길 수 있다는 내용이 있는데 이를 활용해서 벡터로 임베딩된 과거 텍스트 들의 correlation을 측정, 임베딩 공간에서 distance measure로는 Minkowski distance를 사용했다고 언급이 되어 있음.

그 다음 mean return은 두 번째 사진과 같이 DNN을 통해 추정 되는데 텍스트 임베딩과 시계열 데이터가 input으로 들어가고 ground truth인 realized return과의 L1 로스를 최소화 하는 방향으로 파라미터를 최적화

3. 포트폴리오 성과 개선 확인 (특히 COVID-19와 같은 비정상적 이벤트에 트위터의 sentiment가 빠르게 반응하여 성과 개선이 이루어졌다 주장)

EW(Equal Weight)전략 포트폴리오와 본 전략의 비교

OOS(2016-01-01 ~ 2021-01-01)기간의 KPI 정리 테이블

DETAILED LIST OF SECURITIES (구성 종목 리스트)

The 79 stocks securities are the following (listed in accordance with their stock symbols):

CSCO, BUD, SPLP, BA, MDT, HSBC, TM, V, MO, NVS, BBL, BCH, CHTR, C, T, SNP, BAC, BP, PEP, IEP, UL, D, MRK, TSM, CODI, ABBV, ORCL, PG, CAT, MCD, AMZN, INTC, MMM, KO, NEE, UPS, MSFT, EXC, HD, SO, XOM, CVX, RDS-B, CMCSA, PCG, FB, NGG, BHP, WFC, GD, PM, DIS, GE, PTR, BSAC, JPM, DHR, ABB, SRE, GOOG, PFE, DUK, VZ, AMGN, SNY, BABA, UNH, MA, HON, BRK-A, SLB, AAPL, WMT, LMT, AEP, JNJ, AGFS, REX, and PPL.

후기

  • BERT 모델을 통한 텍스트 데이터의 벡터 임베딩을 포트폴리오 최적화에 반영하는 간단한 아이디어 인데 성능이 꽤 괜찮게 나옴
  • 개인적으로는 네이버 종목 토론실 긁어서 해보면 재미있을거 같은데... 댓글 여론조작 사건(?) 이후로 크롤링에 대한 아이피 차단이 빡세기도 하고 너무 의미없는 글들이 많아서 전처리가 힘들거 같다는 생각이 듦