Представляем немного сокращенный адаптированный перевод статьи китайских ученых «Применение больших данных и искусственного интеллекта в геологии: краткий обзор» (Chen et al., 2020). Она была опубликована в журнале Journal of Physics: Conference Series («Физический журнал: Серия “Конференции”») издательством британской благотворительной научной организации IOP (Institute of Physics – «Институт физики»). Эта статья находится в открытом доступе по лицензии CC BY 3.0, которая позволяет распространять, переводить, адаптировать и дополнять ее при условии указания типов изменений и ссылки на первоисточник с указанием DOI. В нашем случае полная ссылка на источник для представленного перевода (Chen et al., 2020) приводится в конце.
Технологии больших данных и искусственного интеллекта (ИИ) обеспечили появление новых методов и возможностей для многих применений в геологии. Тем не менее приложения для работы с большими данными в сферах наук о Земле, основанные на ИИ, все еще находятся в зачаточном состоянии, а методы и цели по-прежнему разрозненны, отсутствует единая теоретическая и прикладная основа. В этой статье рассматривается применение технологий больших данных и ИИ, их текущее состояние, имеющиеся проблемы и тенденции развития для использования в геологии. Данная публикация может послужить ориентиром для будущих исследований и разработок в этой сфере.
В геологии в основном изучается литосфера, в том числе состав, внутренняя структура и развитие Земли [1]. Из-за масштабности и сложности объектов геологических исследований часто приходится сталкиваться с проблемами, связанными со сложными источниками данных и низкой точностью [2]. Благодаря быстрому развитию наук и технологий появилось огромное количество новых технических методов, в том числе для геофизических, геохимических исследований [3–5], изотопной геологии [6], дистанционного зондирования Земли [7] и т.д. Эти технологии увеличивают точность и объем геологических данных.
Искусственный интеллект (ИИ) относится к компьютерным наукам. Это интеллект, проявляемый системой, созданной людьми [8]. ИИ можно разделить на две категории – слабый (узкий) и сильный (общий) [8]. В области слабого ИИ нельзя создать интеллектуальные машины, способные рассуждать и решать проблемы, как человек [9]. Сильный ИИ предполагает возможность создания действительно интеллектуальных машин, способных к рассуждению и решению задач, может быть, даже считающихся разумными и обладающими самосознанием [9]. Направления исследований в сфере ИИ включают экспертные системы, машинное обучение, распознавание речи, компьютерное зрение и рекомендательные системы (системы рекомендаций) [10]. Среди них наиболее быстро развивающимся и наилучшим образом отражающим интеллект направлением является машинное обучение [11].
В сфере машинного обучения исследуется то, как компьютеры имитируют или реализуют поведение человека в процессе обучения, характеризующееся способностью автоматически совершенствоваться на основе опыта. Через алгоритмы машинного обучения возможно приобретение новых знаний или навыков. Для преодоления узких мест в развитии машинного обучения (таких как обилие типов моделей, обширность обучения, сложность определения весов параметров и широкий диапазон параметров) появилась технология глубокого обучения, которая получила широкое распространение и стала ключевым направлением развития ИИ [12].
Глубокое обучение – это разновидность технологии машинного обучения, в которой используются глубокие нейронные сети для решения задачи обучения представлению признаков (на основе применения многослойных нейронных сетей для автоматического извлечения высокоуровневых признаков из сложных данных. – Ред.). Основные цели работы нейронной сети глубокого обучения – имитация процесса обучения человеческого мозга с помощью алгоритма глубокой нейронной сети и объединение низкоуровневых признаков в абстрактное представление более высокого уровня с использованием нелинейной взаимосвязи между вводом и выводом, чтобы в конечном итоге достичь совершенного уровня и возможности применения [13].
Очень важную роль в результатах обучения модели ИИ играет богатство данных [14]. В связи с взрывным ростом объемов данных и быстрым развитием сетевых вычислительных технологий, обеспечивающих базовое информационное обеспечение для ИИ, появилась концепция больших данных [15]. Большие данные – это крупномасштабный набор данных, которые трудно собирать, хранить, анализировать и которыми трудно управлять с помощью традиционных программных средств для баз данных [16]. Это относится не только к значительному количеству данных, но и к большому разнообразию их типов и низкой плотности распределения значений [15]. Технология больших данных может помочь самым разным компаниям извлекать необходимую информацию из больших массивов данных с низкой плотностью распределения значений. В результате данные могут быть преобразованы из количественных в качественные, что действительно будет представлять ценность [15].
В последние годы благодаря своему быстрому развитию технологии больших данных и искусственного интеллекта нашли определенное применение в геологии [17]. С повышением производительности вычислительных систем (особенно благодаря быстрому развитию технологии высокопроизводительных вычислений с использованием графических процессоров) проблемы ограничения вычислительных мощностей при использовании технологий больших данных и ИИ были в значительной степени решены [18]. Это снижает нагрузку рассматриваемых технологий на вычислительном уровне и расширяет возможности их применения и перспективы их развития при геологических исследованиях [19]. Искусственный интеллект обычно используется для изыскательских работ, поисков и разведки полезных ископаемых, обнаружения геохимических аномалий [20].
В этой статье как раз и рассматривается применение технологий больших данных и ИИ в геологии.
Геологические большие данные – это новое понятие, возникшее в результате внедрения теории больших данных в геологию [17]. Данные при геологических исследованиях поступают из широкого спектра источников. С внедрением новых технологий, снижением стоимости хранения и накоплением исторических данных геологическая информация стала приобретать характеристики больших данных – по объему, ценности, разнообразию и временному охвату [2]. Традиционные методы обработки данных постепенно перестают соответствовать требованиям к методам и скорости обработки геологических данных [17]. Технологии больших данных и ИИ дали геологической отрасли эффективные методы работы с информацией, а развитие высокопроизводительных вычислений значительно расширило возможности применения моделей ИИ в геологии.
Геологические науки являются наблюдательными дисциплинами и основываются на обобщенном анализе собранной информации с использованием интегрирующих рассуждений [18]. Из-за сложностей с получением исчерпывающих данных и ограниченности собственного опыта и знаний исследователей трудно выполнять анализ, делать заключения, которые полностью соответствовали бы реальным ситуациям. А технологии больших данных и ИИ по сравнению с традиционными методами позволяют использовать огромные объемы геологических данных для обобщения характеристик, выявления закономерностей геологических процессов, объективного, беспристрастного и быстрого анализа явлений и получения более научно обоснованных результатов [19]. Поэтому исследования в области технологий обработки геологических больших данных дадут новый толчок развитию геологии.
Геологические большие данные характеризуются наличием многих источников, разнообразием типов и большими объемами, что делает возможным применение теории больших данных и связанных с ней технологий в геологической отрасли, но вместе с тем вызывает ряд проблем [2]. Например, наличие множества источников затрудняет интеллектуальный анализ данных. Поскольку существуют разные источники, типы и объемы данных, методы их обработки и модели анализа также различны, поэтому трудно определить степень влияния каждого типа данных на конечные результаты. Плотность распределения значений в случае больших геологических данных относительно низка, поэтому итоговые результаты анализа могут быть недостоверными, что оказывает огромное влияние на поиски и разведку полезных ископаемых, мониторинг опасных геологических явлений и процессов и на другие аспекты. В Китае пока (на момент написания статьи. – Ред.) не так много исследований по технологии больших геологических данных, поэтому трудно гарантировать качество геологических данных с низкой плотностью распределения значений, а обеспечение точности и сохранности данных также сталкивается со многими проблемами [19].
До настоящего времени многие ученые предпринимали попытки применения технологических методов, связанных с большими данными и ИИ, в геологии. В сфере научных геологических исследований благодаря все более широкому использованию новых технологий больше экономических преимуществ, источников и объемов данных имеет направление поисков и разведки полезных ископаемых. Поэтому именно данное направление лучше подходит для применения искусственного интеллекта и теоретических методов работы с большими данными. Одни из наиболее широко используемых моделей ИИ в этой области – искусственные нейронные сети (модели глубокого обучения), которые зарекомендовали себя как мощные инструменты для классификации и идентификации полезных ископаемых [20, 23]. Крэкнелл и Ридинг [24] сравнили пять алгоритмов машинного обучения для геологического картирования и показали, что предпочтительной моделью для литологической классификации является алгоритм «случайный лес» (Random Forest, RF). В последние годы широкое внимание привлекли исследования ключевых технологий машинного обучения, применяемых в области разведки полезных ископаемых и соответствующего картирования. При картировании перспективных месторождений полезных ископаемых было использовано несколько методов контролируемой классификации (supervised classification). Родригес-Гальяно и др. [25] использовали искусственную нейронную сеть, дерево решений, алгоритм «случайный лес» и метод опорных векторов по отдельности для картирования месторождений полезных ископаемых. Сравнив результаты использования этих четырех методов, они обнаружили, что метод «случайный лес» превосходит остальные три метода машинного обучения [25].
Кроме того, из-за сложности геологической среды и неизвестного распределения геохимических данных традиционные математические и статистические методы не эффективны для выявления геохимических аномалий. Поэтому для определения геохимических аномалий некоторые методы машинного обучения были использованы в экспериментальном порядке [4–5]. Преимущество этих методов заключается в том, что они не делают предположений/допущений по распределению данных и хорошо справляются с нелинейными связями между геохимическими данными. Например, Тваракави и др. [4] использовали метод опорных векторов и его надежную модификацию с использованием метода наименьших квадратов для картирования концентраций триоксида мышьяка, используя распределение концентраций золота, присутствующего в отложениях Аляски. Бёшэр и др. [26] применили искусственные нейронные сети для картирования почв в нижнем течении реки Сирппуйоки (Sirppujoki) на юго-западе Финляндии. Чэнь и др. [27] провели исследования на юге провинции Цзилинь в Китае и успешно выявили там геохимические аномалии с помощью метода (модели) ограниченной машины Больцмана. Гонбади и др. [5] использовали контролируемое машинное обучение для выявления медно-порфировых геохимических аномалий в провинции Керман в Иране. Чэнь и др. [28] предложили пространственно ограниченную модель нейронной сети, основанную на использовании множества автоэнкодеров (автокодировщиков), для эффективного улучшения способности нейронной сети (глубокого обучения) идентифицировать многомерные аномалии в разведочной геохимии. Чэнь и др. [29] представили также подход с применением многосверточных автокодировщиков с неинтерактивной структурой сети для точного распознавания геохимических аномалий. Вышеуказанные исследования показали, что модели машинного обучения являются эффективными инструментами для распознавания многомерных геохимических аномалий.
Кроме того, технологии ИИ и больших данных обладают большим потенциалом в таких направлениях геологических исследований, как идентификация геологических образцов, минералогические исследования руд и сейсмический мониторинг.
Теоретические методы больших данных могут быть успешно применены в области идентификации геологических образцов. Стандарты классификации данных для идентификации геологических образцов известны, а источники данных весьма разнообразны. Высокую справочную ценность для текущего определения образцов имеют исторические данные по идентификации [19]. Модель ИИ может быть обучена на исторических геологических больших данных. И тогда она может применяться для распознавания типов образцов, что может не только значительно увеличить эффективность, но и повысить точность и избежать ошибок, вызванных искусственным распознаванием [24]. В настоящее время в области идентификации образцов полезных ископаемых используются модели глубокого обучения, которые дают хорошие результаты [30]. Надо полагать, что в будущем в этой области очень перспективным также будет использование методов больших данных и ИИ.
Теория геологических больших данных имеет широкие перспективы применения и в минералогических исследованиях. Использование технологий больших данных и моделей ИИ для анализа и извлечения знаний из геологических больших данных может помочь геологам в понимании моделей месторождений, анализе процессов их формирования, выявлении металлогенических закономерностей и в содействовии поискам и разведке полезных ископаемых и освоению их месторождений [24].
Сейсмический мониторинг связан с экономикой и жизнью населения страны, а сейсморазведка также является важным технологическим методом в геологической отрасли. Развитие науки и техники, применение новых технологий в сферах мониторинга землетрясений и сейсморазведки привели к появлению огромного объема данных. Поэтому эффективность и точность анализа сейсмической информации существенно повысятся с применением технологий больших данных и ИИ и высокопроизводительных вычислительных технологий. И это окажет большую помощь для сейсмического мониторинга и полевых геологоразведочных работ.
Технологии ИИ и больших данных широко применяются в информатике и науке о данных, однако в геологии их использование все еще находится на начальной стадии. Нет необходимого полного набора теорий и систем, объединяющего теоретические проблемы геологии с машинным обучением.
Соответствующие достижения в геологии включают выявление геохимических аномалий [4–5], идентификацию полезных ископаемых [20, 23] и многие другие направления. Это говорит о том, что технологии больших данных и ИИ имеют широкие перспективы для исследований и высокую прикладную ценность в геологии.
Преимущество больших пространственных данных заключается в том, что они отражают тонкую структуру связей «Земля – время» [30], а подход «снизу вверх» может быть использован для моделирования традиционных геологических задач. Если ИИ использовать как средство, большие данные – как входные данные, а решение задач – как цель, то можно эффективно получать результаты с более высокой точностью по сравнению с традиционными статистическими методами. Однако неопределенность ИИ, особенно глубокого обучения, делает неопределенным развитие использования этих технологий в разных направлениях геологии [22].
Важными особенностями геологии являются многомасштабные эффекты, пространственно-временная неоднородность и пространственно-временные корреляции [31]. Исследования в геологических науках стремительно развиваются от одномасштабных к многомасштабным и от статических к динамическим [31]. В ходе этого развития становятся крайне необходимыми новые модели и новые данные. И возможности для этого обеспечивают технологии ИИ и больших данных. Поэтому фокусами будущих исследований становятся достоверность данных, их погрешности и надежность моделей.
С учетом четырех характеристик больших данных (их огромного объема, разнообразия типов, низкой плотности распределения и быстрой генерации [15]), технические средства их анализа и исследований отличаются от традиционных. Требуются более высокие вычислительные мощности и более эффективные методы обработки данных. Технологии высокопроизводительных вычислений значительно улучшили вычислительные возможности [107], которые играют очень важную роль при анализе и обработке больших данных и реализации сложных моделей ИИ. Мощные вычислительные ресурсы будут основой для эффективного построения пространственно-временных баз данных в геологии и решения задач, связанных с разнородными пространственными данными, полученными из многих источников и в разные периоды времени.
Кроме того, в будущем предстоит решить научно-технический вопрос о том, как эффективно построить платформу искусственного интеллекта на основе пространственно-временной базы данных для поддержки среды больших данных и, таким образом, провести анализ и исследование пространственных данных из множества источников.
В этой статье кратко описано текущее состояние исследований в области применения технологий больших данных и искусственного интеллекта в геологии. Авторами сделаны следующие выводы.
Благодаря разнообразию методов сбора, снижению затрат на хранение и накопление геологических данных последние постепенно приобретают характеристики больших данных. Внедрение технологий больших данных и искусственного интеллекта дало геологической отрасли более разнообразные методы обработки данных и возможность извлекать геологические закономерности, скрытые в массивах геологических данных. Наиболее развитое научное направление применения технологий больших данных и ИИ в геологии в настоящее время – это поиски и разведка полезных ископаемых. В качестве надежных инструментов классификации и идентификации полезных ископаемых зарекомендовали себя такие наиболее широко используемые модели ИИ, как искусственные нейронные сети. В сфере геохимии были применены на практике и дали хорошие результаты некоторые методы обнаружения аномалий, основанные на машинном обучении. В таких направлениях, как идентификация геологических образцов, минералогические исследования и мониторинг землетрясений, модели ИИ могут быть обучены на основе исторических данных и опыта для повышения эффективности, уменьшения ошибок и повышения точности.
Использование технологий ИИ и больших данных в геологии находится в зачаточном состоянии. Для их развития в этой отрасли еще не разработан полный набор теорий и систем. Но их применение уже продемонстрировало такие преимущества, как обеспечение точности и эффективности моделирования. Однако неопределенность в ответах ИИ, особенно на основе глубокого обучения, пока делает развитие соответствующих технологий в геологии неопределенным.
Непрерывное развитие технологий больших данных и искусственного интеллекта дает множество новых средств и методов, которые открывают большие возможности для инноваций в геологии. В рамках тенденции развития «от одномасштабного к многомасштабному, от статического к динамическому» важной задачей, которую необходимо решить в будущем, является создание пространственно-временной базы данных и платформы ИИ в геологии в соответствии с особенностями геологических исследований. Чтобы решить эту задачу, ученым-геологам необходимо выйти за рамки традиционного мышления и начать знакомиться с соответствующими теориями больших данных и искусственного интеллекта и активно участвовать в междисциплинарном сотрудничестве.
Применение технологий больших данных и ИИ в геологии становится все более популярным и позволяет получать интересные результаты. При этом приходится сталкиваться со возникновением многих новых возможностей и соответствующих вызовов. В научных исследованиях нет легких путей, а междисциплинарные исследования еще более сложны. Однако есть основания полагать, что благодаря постоянным углубленным исследованиям и анализу геологические науки с помощью технологий больших данных и искусственного интеллекта обязательно добьются значительного прогресса.