Cluster-Based Mutual Fund Classification and Price Prediction Using Machine Learning for Robo-Advisors

Cluster-Based Mutual Fund Classification and Price Prediction Using Machine Learning for Robo-Advisors

Cluster-Based Mutual Fund Classification and Price Prediction Using Machine Learning for Robo-Advisors


(Xiaofei Chen, Shujun Ye, and Chao Huang Beijing Jiaotong University, School of Economics and Management, Beijing, China)

Классификация взаимных фондов путём кластеризации и прогнозирование цен с использованием машинного самообучения в роботизированном инвестиционном консультировании. Реферат статьи

В Китае наблюдается стремительный рост финтеха. Инвестирование во взаимные фонды с помощью робоадвайзеров стало ещё одной инновацией в индустрии управления благосостоянием. В последние годы машинное обучение (DL), особенно глубокое обучение (DL), широко используется в финансовой индустрии для решения финансовых задач.

Цель этой статьи - повысить точность и своевременность классификации фондов за счет использования алгоритмов ML, в частности гауссовского гибридного алгоритма кластеризации.

В то же время, прогнозирование, основанное на DL модели, реализована для прогнозирования движения цен классов фондов, полученных в результате вышеописанной кластеризации.

Классификация фондов, проведенная на базе 3625 действующих китайских взаимных фондов, показывает точные и эффективные результаты. Полученный пространственно-временной ансамбль на основе кластеров DL модуля, показывает лучшую точность прогнозирования, чем базовые модели, имеющие доступ только к ограниченным выборкам данных.

Основным вкладом этой статьи является предоставление нового подхода к классификации фондов и прогнозированию движения цен для поддержки принятия решений робо-консультантом следующего поколения с поддержкой искусственного интеллекта.

Введение

В последние годы методы ML и DL широко используются в финансах для удовлетворения финансовых потребностей [1-5]. В качестве примера применения этих новых методов: робо-адвайзинг пользуется всё большей популярностью у растущего числа инвестиционных компаний, и, таким образом, уже сейчас роботы-консультанты играют важную роль в глобальных инвестициях и аллокации активов.

С момента проведения экономических реформ и политики открытости, начатых 40 лет назад, Китай продемонстрировал быстрый экономический рост и стал вторым по величине рынком управления капиталом в мире. Чтобы удовлетворить потребности жителей в управлении благосостоянием, публичные фонды с господдержкой постепенно стали одним из основных инструментов управления капиталом благодаря широкой линейкой их инвестиционных целей, профессиональному управлению и открытости, прозрачности, доступности в информационной среде.
В то же время, благодаря своевременному внедрению технологий на финансовый рынок, стоимость участия резидентов в реализации индивидуальных финансовых услуг постепенно снижалась. Кроме того, поскольку роботы-консультанты доступны обычным инвесторам, последние стали одним из основных инструментов для финансовых учреждений по внедрению инноваций в области управления капиталом благодаря ряду преимуществ, таких как управление долгосрочным распределением активов, использование современной теории оптимизации портфеля с обработкой больших массивов данных, внедрение облачных вычислений.

Компании научились автоматически предлагать клиентам инвестиционные решения – паевые фонды через Интернет, с учетом предпочтений инвесторов в отношении риска, имущественного статуса и финансовых целей.

Таким образом, применение технологии искусственного интеллекта позволяет превзойти возможности традиционных инвестиционных консультантов за счет оптимального решения ряда практических проблем, с которыми сталкиваются традиционные консультанты, особенно касающихся сокращения затрат и глубины охвата клиентов.

Есть два шага, которые роботы-консультанты должны пройти в процессе составления инвестиционных планов: выбор фонда и распределение активов.

Выбор фонда можно далее разделить на два аспекта: классификацию фонда и прогнозирование доходности фонда.

В Китае текущая классификация фондов, как правило, основана на первичной классификации (шаг 1), выпущенной Комиссией по регулированию ценных бумаг Китая (CSRC). По классификации CSRC существует два основных типа фондов: фонды акций и фонды облигаций. На втором шаге классификации можно фонды акций разделить по размеру их рыночной капитализации и стиля их владения, в то время как фонды облигаций могут быть классифицированы на основе доли акций в их портфелях.

Если говорить о классификации фондов, получаемой методами ML, то, как правило, применяются два распространённых метода: кластеризация разделов (представленная кластеризацией K-средних) и кластеризация сетей (представленная SOM).

Преимущества метода кластеризации по разделам заключаются в том, что он основан более простом принципе, использует меньшее количество вводимых параметров и более высокой скорости сходимости; однако форма круговой кластеризации может быть слишком простой, что поставит под угрозу точность результатов классификации.

Метод сетевой кластеризации может эффективно решать проблемы многомерной кластеризации, но он подвержен многомерным катастрофам и сетевая модель относительно чувствительна к выбору параметров. С точки зрения прогнозирования направления ценового движения, часто используются ARIMA, искусственная нейронная сеть (ANN) и нейронная сеть обратного распространения (BP), хотя их слабость заключается в том, что параметры трудно оценить, а модели подвержены перенасыщению.

Чтобы решить вышеуказанные проблемы, в этой статье мы используем метод кластеризации гауссовой смеси (GMM). GMM может эффективно решить проблему, заключающуюся в том, что форма кластера слишком проста при использовании простого параметра. Для эмпирического анализа мы используем данные с китайского рынка. Мы продолжаем наш анализ, используя двухэтапную классификацию, чтобы еще больше выделить стили и характеристики фондов акций и облигаций из собранных нами данных. Основываясь на результатах GMM, мы используем DL метод для пространственно-временного ансамбля с целью прогнозирования ценового движения для каждой категории фонда. Затем мы в полной мере используем идею кластеризации и обучения полученного ансамбля с целью эффективного улучшения применимости и способности модели к прогнозированию, особенно когда доступ к большим данным довольно ограничен.

Чтобы сравнить эффективность прогнозирования стоимости чистых активов фонда нашей модели, мы сравниваем ее с несколькими базовыми моделями, а именно с моделью остаточной сети (далее ResNet), моделью сети долговременной и краткосрочной памяти (далее LSTM) и одномерной сверточной нейронной сетью (CNN, далее) модель. Мы изучаем их эффективность в прогнозировании краткосрочной доходности четырех основных классифицированных категорий в наших результатах, используя среднюю абсолютную ошибку (MAE) и коэффициент корреляции R2 в качестве показателей оценки.

Наши основные выводы заключаются в следующем. Наш двухэтапный метод GMM может генерировать вероятности того, что фонды принадлежат к определенной категории, в соответствии с их рисками и доходностью, и, таким образом, метод превосходит традиционную модель K-средних в классификации фондов. Наша модель также улучшает возможности прогнозирования движения цен на фонды, с уменьшенной ошибкой прогнозирования, по сравнению с другими моделями, т.е. моделями ResNet, LSTM и CNN.

Основные полезности этой статьи заключаются в следующем:
  1.  Мы предлагаем новую двухэтапную модель GMM для эффективного различения взаимных фондов в Китае, используя простые характеристики фондов,
  2.  Мы строим DL модель ансамбля для прогнозирования краткосрочного движения цен различных категорий фондов.


Заключение

В этой статье представлен новый инструмент прогнозирования цен на фонды, то есть пространственно-временная DL модель ансамбля, основанная на классификации фондов, для прогнозирования цены выбранных нами фондов на китайском рынке. В этой статье мы предлагаем двухэтапный GMM процесс классификации паевых фондов по разным категориям, гарантирующий отнесение фондов со схожими характеристиками риска/доходности в одну категорию.

Затем мы используем предложенную нами модель для прогнозирования краткосрочного движения цен в каждой категории фондов.

Основные выводы этого документа резюмируются следующим образом:
  1.  По сравнению с традиционным методом кластеризации K-средних и методом сетевой кластеризации наш двухэтапный Метод GMM может генерировать значение вероятности того, что тот или иной фонд принадлежит к определенной категории,
  2.  В этой статье используется идея ансамблевого обучения для улучшения способности других моделей (моделей ResNet, LSTM и CNN) r прогнозированию движения цен на фонды,
  3.  Мы классифицируем фонды на основе их риска и доходности, что может эффективно смягчить проблемы, связанные с большими колебаниями и нарушениями в процессе прогнозирования, и, таким образом, расширяем применимость нашей модели в целом.

ИИ ПИФ.png