Краткий обзор

  • Статистически значимый Прогнозируется, что увеличение длины белой книги на 1 странице увеличит объем, привлеченный в ICO, примерно на 1%.
  • прочность: Этот результат устойчив к сезонным тенденциям в сборе средств на криптовалюту в 2018 году
  • Следующие шаги: Мы хотели бы распространить наши результаты на усилия по сбору средств до 2018 года и использовать возможности языка белой книги в наших будущих усилиях по моделированию

На рынках криптовалюты произошел недавний рост длины Белой книги. В период с первого квартала 2016 года по четвертый квартал 2018 года количество слов увеличилось со среднего числа примерно 3000 слов на бумагу до 9000 слов. Многие проекты ICO, которые планируется запустить в 2019 году, по-видимому, продолжают эту тенденцию.

Мы заинтересованы в том, чтобы узнать, дает ли это увеличение длины информацию о сумме денег, собранных в рамках проектов, в которых проводится ICO. В частности, предсказывает ли длина белой книги более высокую сумму в долларах, поднятую к дате закрытия?

Наша интуиция предполагает, что длина белой книги, с одной стороны, может указывать на сложность проекта, а с другой — может быть результатом дополнительной графики, стилистических различий и общей многословности.

Чтобы проанализировать этот вопрос, мы собрали сумму в долларах, собранную на дату закрытия в расчете на одну криптовалюту, через систему отслеживания ICO Coindesk. Затем мы вручную просмотрели белую бумагу каждой криптовалюты и определили количество страниц на этих бумагах. В связи с длительностью этого ручного процесса мы решили начать с анализа ICO в период с января 2018 года по июль 2018 года. Мы обсудим последствия подмножества данных на наших следующих шагах.

Исследование данных

В нашем наборе данных с января по июль этого года насчитывается 439 ICO. Этот размер набора данных является относительно небольшим, что говорит о том, что мы не можем получать статистически значимые результаты с большим набором функций. Возможно, нам удастся провести более глубокий анализ, если учесть более ранние годы нашей будущей работы.

Для нашего анализа мы будем прогнозировать сумму в долларах, поднятую в ICO (в миллионах) за криптовалюту, используя количество страниц. Давайте посмотрим на наши переменные, представляющие интерес.

amount_raised_hist.png

Рисунок 1: Распределение суммы, привлеченной в ICO ($ M). Обычная сумма собрано находится наверху, в то время как поднятая сумма журнала находится на дне.

Мы видим, что полученное количество сырья сильно искажено (вверху). Это не редкость финансовых данных; Есть много проектов, чьи ICO сравнительно немного выросли к моменту закрытия, и несколько ICO собрали огромную сумму денег. Для справки: средняя сумма привлечения составляет около 12,2 млн долларов, а максимальная — около 4200 млн долларов. Хотя это совершенно разумно как финансовый процесс, для простых прогностических моделей часто бывает трудно подобрать корректные переменные. Поскольку натуральный логарифм поднятой суммы в долларах (нижний график) распределен гораздо более нормально (что легче предсказать с помощью простых методов регрессии), мы будем цель предсказать преобразованную логарифмическую версию нашей поднятой суммы в нашей методологии.

page_count_hist.png

Рисунок 2: Распределение количества страниц по белой книге ICO.

Как и количество поднятых, количество страниц также является перекошенной вправо переменной. В среднем белые книги обычно имеют длину 38 страниц, но самая длинная белая книга в нашем наборе данных составляет 132 страницы. Поскольку большинство простых методов регрессии не делают нормальных предположений относительно объясняющих переменных, нас это не слишком беспокоит. Тем не менее, редкость распределения количества страниц выше 70 страниц говорит о том, что в настоящее время мы не можем делать статистически значимые заявления об очень длинных официальных документах.

log_amt_raised_on_page_count.png

Рисунок 3: Увеличено количество журналов ($ M) на счетчике страниц (чир). Мы удалили выброс числа страниц (Page Count = 132) из ​​аннотации на графике. Синяя линия представляет линейный тренд для основного набора ICO. Пунктирная черная линия представляет количество страниц, равное 54, а красные пунктирные линии представляют собой среднее значение log-Am, увеличенное до и после обрезки.

При отображении количества журналов, поднятых на счетчике страниц, есть очень явный выброс на 132 страницах. Учитывая, что второе по величине количество страниц составляет всего 105 страниц, а объем, поднятый на 132-страничном официальном документе, очень высок, нам неудобно интерполировать эффект подсчета страниц в этом промежутке. Таким образом, мы собираемся удалите из нашего анализа white papper на 132 страницы,

По линейному тренду (синий) мы видим, что есть ключевые положительные отношения между увеличенным количеством страниц и увеличенным количеством, Тем не менее, наши наблюдения (чирок) дают понять, что шум вокруг линейного тренда непостоянен, В частности, похоже, что изменение количества журналов увеличивается примерно после 54 страниц. Эта гетероскедастичность может нарушать некоторые предположения, связанные со статистическим тестированием взаимосвязи между увеличенным объемом журнала и количеством страниц. Пока мы оставляем эту проверку надежности за рамками этого анализа. Мы рассмотрим последствия в наших следующих шагах.

Анализируя эту взаимосвязь, мы также заметили явный условный подъем количества журналов, поднятый примерно на границе 54 страниц (черный, пунктирный). Если мы просто проанализируем средняя сумма в долларах, увеличенная до и послемы измеряем вокруг На 52,7% выросла сумма в долларах, В то время как это измерение, вероятно, будет ослаблено при контроле других источников вариаций (см. Методологию), этот подъем кажется достаточно существенным, чтобы его можно было рассматривать как альтернативу предсказательной гипотезы линейному тренду (синий). Хотя число 54 относительно условно, оно соответствует 84-му процентилю распределения количества страниц. Таким образом, мы рассмотрим модель, которая представляет влияние количества страниц на количество журналов, поднятое в качестве подъема для криптовалют с документами в верхних 16% для количества страниц,

Краткое изложение методологии

Для большей прозрачности нашего анализа мы хотели бы глубоко погрузиться в нашу методологию прогнозирования суммы в долларах, привлеченной в ICO. Однако мы понимаем, что это описание может быть довольно многословным. Таким образом, мы предоставим здесь краткое резюме и подробно расскажем о нашем подходе в отдельной ссылке.

Из-за асимметрии суммы в долларах, поднятой в ICO, мы планируем прогнозировать сумму, полученную в логах, чтобы облегчить проблему прогнозирования для простых методов регрессии. Мы рассматриваем как линейную модель, так и модель отсечения (см. Рисунок 3), которая контролирует сезонную сезонность в увеличенном количестве журналов при оценке эффекта подсчета страниц. Так как мы прогнозируем увеличение логарифмической суммы, мы интерпретируем наше влияние на сумму в долларах, привлеченную в ICO, как множители, а не линейные изменения в деньгах.

Мы выбираем модель, которая минимизирует перекрестно проверенную среднеквадратичную ошибку (CV-RMSE) при 5-кратном моделировании. Среднеквадратическая ошибка (RMSE) — это показатель ошибки, который в среднем измеряет, насколько наши прогнозы по модели отличаются от фактической суммы в долларах, полученной в ICO. Перекрестно проверенная версия этой метрики измеряет эффективность наших модельных прогнозов для внеплановых ICO. В этом отношении ожидается, что модель в нашем наборе соображений, которая минимизирует CV-RMSE, будет наилучшей (в указанном наборе соображений) при обобщении предсказаний для новых криптовалют. Подробнее о том, как мы строим CV-RMSE с помощью симуляции, см. Наше приложение.

Результаты

Мы видим, что RMSE для перекрестной проверки для моделей с линейным и процентильным эффектом составляет 111,84 и 111,9 соответственно. Хотя эти среднеквадратичные среднеквадратичные средние значения очень близки, мы выберем линейную модель (модель 1 в разделе методологии), поскольку ее среднеквадратичное среднеквадратичное значение немного меньше, чем среднеквадратичное среднеквадратичное значение модели процентиля.

При этом, это RMSE касается подходящей точки зрения. Линейная модель подразумевает, что в среднем наша модель обходится примерно в 112 миллионов долларов за каждую криптовалюту ICO, Это довольно серьезное недофинансирование процесса сбора средств, и мы считаем, что стоит рассмотреть более насыщенную модель в наших следующих шагах.

Коэффициент Std. ошибка Р-значение Процентное изменение
(Автоматической переадресации вызова) 2,539 0,186 0,000 Не Доступно
Количество страниц 0,010 0,003 0,005 1,005%
Месяц закрытия = 2 (февраль) -0,113 0,205 0,583 -10,685%
Месяц закрытия = 3 (март) -0,564 0,203 0,006 -43,107%
Месяц закрытия = 4 (апрель) -1,228 0,197 0,000 -70,712%
Месяц закрытия = 5 (май) -0,607 0,202 0,003 -45,502%
Месяц закрытия = 6 (июнь) -0,821 0,209 0,000 -56,001%
Месяц закрытия = 7 (июль) -1,140 0,198 0,000 -68,018%

Таблица 1: Таблица коэффициентов из нашей выбранной регрессии. «Процентное изменение» ожидаемое процентное изменение привлеченной суммы (в млн. долл. США), подразумеваемое коэффициентом По оценкам.

Мы видим, что когда мы контролируем сезонность, Прогнозируется, что увеличение длины white papper на 1 страницу увеличит объем, поднятый примерно на 1%, Это также очень статистически значимо, с p-значением ниже 0,01. Это означает, что существует статистически значимая вероятность, которая оказывает некоторое влияние на сумму, поднятую. Тем не менее, есть все еще открытые вопросы о повествовании эффекта. С одной стороны, количество страниц может быть просто формой запутывания; не может быть существенных различий в качествах различных криптовалют, но длина белой книги может создать впечатление сложности и должной осмотрительности для ICO, которая заставляет инвесторов обеспечивать больше сбора средств. С другой стороны, могут существовать реальные различия в содержании, которые определяют как объем официальных документов, так и общую сумму в долларах, поднятую в ICO (например, новые технологические прорывы, амбициозные проекты). В связи с этим будет важно провести дальнейший анализ языкового содержания этих официальных документов на наших следующих шагах.

Несмотря на различную статистическую значимость наших месячных показателей, их отрицательные коэффициенты дают понять, что наблюдается общее снижение суммы в долларах, привлеченной через ICO после февраля 2018 года., Это может быть тот случай, когда энтузиазм по поводу криптовалюты снизился за год, что может сообщать о более низких суммах, привлеченных через ICO после февраля.

page_count_on_month_of_close.png

Рисунок 4: Количество страниц в месяце закрытия для ICO в нашем наборе данных моделирования (teal). Количество страниц за месяц закрытия обозначено синей линией.

В качестве проверки надежности мы хотели убедиться, что коллинеарность между количеством страниц и месяцем закрытия была незначительной. Если бы это было так, это затруднило бы интерпретацию влияния количества страниц на сумму в долларах, поднятую с учетом сезонности. К счастью, похоже, что нам не придется беспокоиться об этой проблеме. Количество месяцев в нашем наборе данных колеблется между 32 и 36 страницами (синяя линия). Поскольку это среднее отклонение в среднем по месяцам, мы утверждаем, что нам не нужно беспокоиться об этой мультиколлинеарности при интерпретации влияния количества страниц на количество полученного.

Следующие шаги

В этом анализе мы выявили статистически значимую взаимосвязь между количеством страниц в Белой книге по криптовалюте и количеством, полученным в ICO. В частности, наша модель предполагает, что дополнительная страница к белой книге, по прогнозам, увеличит сумму в долларах, привлеченную в ICO, примерно на 1%. Эти отношения могут потенциально повлиять на то, как аналитики отражают криптовалютные документы с точки зрения уровня поверхности. Тем не менее, у нас есть несколько следующих шагов, чтобы улучшить надежность нашей нынешней модели и лучше понять механизмы того, как официальные документы влияют на сумму в долларах, поднятую в ICO.

  1. CV-RMSE предполагает, что наша текущая модель в среднем отключена примерно на 112 миллионов долларов США на ICO. Это серьезное недооценка, и это предполагает, что мы должны рассмотреть более плотный подход к прогнозированию поднятой суммы в долларах. Это потребует от нас более глубокого изучения механизмов, влияющих на сбор средств в рамках ICO, и сбора функций, которые будут охватывать эти механизмы в рамках нашего текущего процесса моделирования.
  2. Если мы хотим рассмотреть более функциональную регрессионную модель, мы получим статистическую выгоду от внедрения ICO предыдущих лет в нашем наборе данных. Учитывая, что в нашем окончательном наборе данных моделирования есть только 438 криптовалют, мы быстро потеряем статистическую значимость, если перегрузим функции для моделирования в этом наборе данных 2018 года. Вероятно, мы можем компенсировать увеличение размеров нашей модели, если введем большое количество ICO, которые произошли в 2017 году в нашем наборе данных моделирования. С другой стороны, мы также сможем контролировать больше сезонных колебаний, когда будем вводить более ранние моменты времени в нашем наборе данных.
  3. Для причинного повествования мы заинтересованы в том, чтобы тратить больше времени на разработку истинных механизмов того, как длина белой книги определяет сбор средств по ICO. В частности, мы заинтересованы в использовании обработки естественного языка, чтобы увидеть, отражает ли содержание языков в официальных документах сумму в долларах, поднятую в ICO в какой-либо степени. Поскольку языковой контент напрямую информирует, как долго эти официальные документы, выявление этой путаницы представит более детальный рассказ о том, как общение по криптовалютам влияет на сбор средств в ICO, Если язык сам по себе не представляет значимого сигнала для увеличения суммы, это может быть случай, когда предположение об этих криптовалютах основано больше на предполагаемой сложности (то есть на длине белой книги), чем на передаваемом контенте.

Майкл Розенберг является выпускником CMU и в настоящее время работает в Wayfair в качестве Data Scientist. Майкла интересуют проблемы, связанные с данными и количественными социальными науками.