논문 3줄 요약 Improving Portfolio Performance via Natural Language Processing Methods
[논문 3줄 요약] Improving Portfolio Performance via Natural Language Processing Methods
Improving Portfolio Performance via Natural Language Processing Methods
Di-Jia Su, John M. Mulvey and H. Vincent Poor (멀비 교수님 연구실)
The Journal of Financial Data Science Spring 2022, jfds.2022.1.088;
1. NLP 여러 분야에서 활약중¶
2. 트위터 + NLP(BERT 모델) 기술을 활용하여 mean-variance 프레임워크에서 쓰이는 mean return과 covariance matrix의 추정 방식을 개선¶
<img src = https://trello.com/1/cards/5fbb135a2a4a0409baa86e9c/attachments/6260bbf62e8c5563ab40b456/download/image.png width='600'>
Covariance Matrix는 위와 같이 Sigma_sample 과 Sigma_embeddings를 파라미터를 통해 합하여 개선되는데 Sigma_sample은 기존 mean-variance 에서 look back period 기간을 통해 추정되는 행렬이고 Sigma_embeddings 이 텀이 추가되는 행렬인데 covariance 계산할 때 시계열의 상관계수가 아닌 텍스트의 상관계수가 들어감
앞에 빌드업을 보면 최신 language embedding은 “king” − "man" + "woman" = Queen 과 같이 언어가 가지는 특성을 벡터 공간에 잘 옮길 수 있다는 내용이 있는데 이를 활용해서 벡터로 임베딩된 과거 텍스트 들의 correlation을 측정, 임베딩 공간에서 distance measure로는 Minkowski distance를 사용했다고 언급이 되어 있음.
그 다음 mean return은 두 번째 사진과 같이 DNN을 통해 추정 되는데 텍스트 임베딩과 시계열 데이터가 input으로 들어가고 ground truth인 realized return과의 L1 로스를 최소화 하는 방향으로 파라미터를 최적화
3. 포트폴리오 성과 개선 확인 (특히 COVID-19와 같은 비정상적 이벤트에 트위터의 sentiment가 빠르게 반응하여 성과 개선이 이루어졌다 주장)¶
DETAILED LIST OF SECURITIES (구성 종목 리스트)
The 79 stocks securities are the following (listed in accordance with their stock symbols):
CSCO, BUD, SPLP, BA, MDT, HSBC, TM, V, MO, NVS, BBL, BCH, CHTR, C, T, SNP, BAC, BP, PEP, IEP, UL, D, MRK, TSM, CODI, ABBV, ORCL, PG, CAT, MCD, AMZN, INTC, MMM, KO, NEE, UPS, MSFT, EXC, HD, SO, XOM, CVX, RDS-B, CMCSA, PCG, FB, NGG, BHP, WFC, GD, PM, DIS, GE, PTR, BSAC, JPM, DHR, ABB, SRE, GOOG, PFE, DUK, VZ, AMGN, SNY, BABA, UNH, MA, HON, BRK-A, SLB, AAPL, WMT, LMT, AEP, JNJ, AGFS, REX, and PPL.
후기¶
- BERT 모델을 통한 텍스트 데이터의 벡터 임베딩을 포트폴리오 최적화에 반영하는 간단한 아이디어 인데 성능이 꽤 괜찮게 나옴
- 개인적으로는 네이버 종목 토론실 긁어서 해보면 재미있을거 같은데... 댓글 여론조작 사건(?) 이후로 크롤링에 대한 아이피 차단이 빡세기도 하고 너무 의미없는 글들이 많아서 전처리가 힘들거 같다는 생각이 듦