Как верифицировались данные для IRON Stat Ukraine

...
Коллеги, с момента релиза проекта IRON Stat Ukraine мы получили благодарности, пожелания, содействие и недовольство. Первого было значительно больше, чем последнего, что уже само по себе является объективной оценкой моей и Александром Глаголевым. Все получение комментарии мы оперативно устранили. Спасибо, что вам не безразлична идея формирования наиболее релевантной статистики по «железным» украинцам.

Сегодня, я расскажу о принципах и методах, которые мы использовали при сборе данных.

Принципы:

Конечным источникам релевантности данных для нас является официальный финишный протокол, размещенный на официальных источниках старта;
  • Мы храним в базе данные по всем финишам конкретных людей и выдаем данные по лучшему результату.

Методы:

Шаг №1. Сбор данных

  • Для сбора данных с Ironman.com Александр Глаголиев написал умного робота. Он собрал для нас данные за 2011-2015 года;
  • Все данные по IRONMAN до 2011 собирались вручную, и чаще всего были представлены в виде разрозненных PDF файлов;
  • Все данные по всем прочим стартам в 90% были представлены в PDF и расфокусированны в разных источниках сети. Они находились и собирались вручную;
  • Данные по разным сериям имели неунифицированные форматы. В ряде случаев, протоколы не содержали национальности. Мы делали альтернативный поиск по людям;
  • Мы учитывали и будем учитывать только официальные старты. Те у которых есть регламент, протоколы и, как минимум, три свидетеля достижения финишером результата.
Шаг №2. Актуализация данные

  • Все собранные данные агрегировались в единый XLS файл;
  • По каждому из финишеров запускался альтернативных поиск и на основании не менее 3х источников фиксировалась «верификация» по конкретному человеку;
  • Недостающие данные: «год рождения», «город рождения» мы уточняли альтернативным поиском по нашим внутренним алгоритмам и методом написания личных писем. По части писем, мы до сих пор не получили ответов.
Шаг №3. Систематизация и локализация

  • Большинство зарубежных протоколов содержат инициалы на латинице. Поэтому локализацию на русский и украинский мы делали методом перевода;
  • Большинство украинских протоколов содержат инициалы на украинском. Поэтому локализацию на русский мы делали методом перевода, на английский — методом транскрипции. По очевидным причинам, этот пункт по умолчанию обречен на неточности. Их, благодаря вам, мы устранили в первые дни существования проекта;
  • Систематизация включала выявления лучшего времени и запуска повторной актуализации данного финиша человека еще по трем открытым и неоткрытым источникам;
  • К неоткрытым источникам я отнесу помощь Евгения Панова, который имел возможность изучить закрытый релиз и сформировать свой список дополнений. Чем нам очень помог.
Шаг №4. Добавление данных, тестирование

  • Внесение данных на интернет-сайт и три уровня тестирования работоспособности сайта до релиза бета версии.
Шаг №5. Настоящие и будущее

  • Работа с обновлениями и новыми функциями и развитие вместе с вами коммьюнити «железных» триатлетов Украины. Комьюнити, основанного не на предположениях и домыслах, а ровно на тех фактах и достижениях, который каждый заслужил.

Вместо заключения, хочу еще раз обозначить важный принцип

Мы не добавляем на IRON Stat Ukraine людей, результаты которых не подтверждены участием в официальных стартах и итоговыми протоколами. Единственное исключение из правил – это старты, которые были до 2000 года и протоколы по которым нет возможности восстановить. В этом случае, в подтвержденим фактов, мы доверяем словами таких авторитетных личностей, как Ястребов Андрей, Панов Евгений, Земцев Виктор, а также тех людей, кто финишировал по данным IRON Stat Ukraine в стартах до 2000 года.

И да, небольшой факт, проект IRON Stat Ukraine не имеет аналогов по уровне реализации на постсоветском пространстве (вопрос мировой мы еще не конца изучали, возможно, и там тоже).