石油地质专业委员会

科研园地

油气行业：人工智能大模型来啦！

来源：「石油科学传播」公众号上传时间：2025-04-25

企业微信截图_20250425110621.jpg

院士观点

虽然目前学术界还没有构建统一的标准来界定一个模型是否是大模型，但是公认的判定指标包括参数量、训练数据量、泛化能力和适应性等。对于参数量，大模型通常拥有数亿到数十亿，甚至更大的参数量；对于训练数据量，大模型通常在包含数百万到数十亿样本数的训练数据集上进行训练；大模型能够在多项下游任务上表现出色，超过或接近传统深度学习中的最佳算法，同时在域外数据或任务上也表现良好；大模型通常能够采用少量的数据进行微调，灵活地迁移至新的任务或领域。大模型技术正在与多个行业相结合，推动着这些行业的变革式发展。

大模型具备多模态数据的综合分析能力，利用大模型技术有望将岩心描述、测井曲线、地震图像等多模态数据进行综合分析。短期内可挑选数据基础良好、在深度学习方面有一定基础的场景，通过训练基础模型或者基于通用基础模型微调等方式，进一步提升原有模型的泛化性、通用性。未来可将多种模型以岩心为标定，利用多模态大模型实现岩心、测井、地震等数据的综合分析。按照逐步训练的原则，先逐个训练单一模型，然后把单一模型级联，逐步构建油藏级大模型。

在科技迅猛发展的今天，人工智能大模型技术正以前所未有的深度和广度，全方位地融入传统油气行业，助力其迈向高质量发展。在此过程中，油气行业大模型的应用现状如何、面临哪些机遇与挑战、发展前景如何？这些问题不仅关乎油气行业的发展现状，更决定其未来发展走向。为此，笔者专访了中国工程院院士、中国石油勘探开发研究院教授刘合教授。

企业微信截图_20250425110758.jpg

问：油气行业中大模型的应用现状是什么？

答：油气行业大模型应用刚刚起步，主要包括大语言模型、视觉大模型/多模态大模型两个方面的垂直应用。油气行业大语言模型主要应用在智能助手及问答、数据分析与可视化等方面，并在油气勘探开发一些细分领域开展了探索性研究。

数据分析方面，主要是利用大语言模型进行数据的实时查询和综合分析。2024年，在产油大国沙特阿拉伯通信技术与信息科技展上，沙特阿拉伯国家石油公司公布了2500×108参数量的油气行业大语言模型，该模型使用了7×1012个数据点进行训练，收集了沙特阿拉伯国家石油公司超过90年的历史数据，能够分析钻井计划、地质数据、历史钻井时间和成本，并推荐最理想的油井方案，同时该模型还能为成品油提供包括价格趋势、市场动态和地缘政治洞察力在内的精确预测。

储层表征方面，部分学者结合统计方法和机器学习研究，针对碳酸盐岩储层的岩石类型划分方案。地质建模方面，在石油和天然气工程中创建地质模型，这些模型可以被用于模拟储层中的流体流动，预测生产性能，并优化生产策略。建立准确的地质模型对于成功的储层管理至关重要。

视觉大模型和多模态大模型具有更加强大的图像处理和分析能力，能够从岩心图像、物探图像、成像测井图像、遥感图像等多种图像/视频中提取关键信息，在油气领域具有更广泛的用途。国内外学者已经开展了在油气领域应用视觉大模型/多模态大模型的探索研究，主要集中在油气勘探、油气生产管控等任务上。

油气勘探方面，中国石油勘探开发研究院的研究团队在薄片、扫描电镜、CT等标注过的岩石图像上进行微调，有力地支撑了薄片智能鉴定、扫描电镜孔缝分析等工作。通过相关的大型模型，可以更高效、准确地解析大量地震数据，提取关键特征，进而可以提高油藏勘测准确率和优化钻井钻探决策。用最少的人工干预和数据进行学习和适应，不仅提高了数字岩石图像分析的准确性，而且预示着基础模型在石油和天然气行业的成功应用。

油气生产管控方面，中国石油勘探开发研究院联合中国石油西南油气田数字智能技术分公司，在多模态大模型下进行微调，适配变化检测下游任务，构建基于无人机的油气管道地质灾害监测模型；还可以用于海洋石油泄漏检测任务，及时发现泄漏情况并协助补救；在油气领域盾构隧道漏水检测任务中，提高了检测效率和可靠性，简化了隧道维护。

问：油气行业大模型应用面临哪些挑战？

答：大模型发展的核心要素包括数据、算力和算法。大模型训练是一项非常复杂的系统工程。训练所需的数据量大：大模型需要大量的高质量训练数据来提高模型的准确性和泛化能力；对算力和算法要求高：大模型的参数量通常达到数十亿到数百亿，需要海量的训练来调整这些参数，因此需要强大的算力和优化算法来加速训练；训练时间长：大模型训练需要数天、数周甚至更长时间，长时间的训练会使调试和优化变得困难，比较复杂的训练大约需要100 天。

油气产业链条长、业务面广、专业性强。油气领域在发展行业大模型方面相较于传统领域呈现出一些特殊性。首先是数据复杂且存在异构性，油气行业数据涉及地质勘探、钻井、生产、运输等多个环节，数据类型多样，要求大模型能够处理高度复杂且异构的数据集。其次是专业知识密集，油气行业具有极强的专业性，涉及到地质学、油藏工程、化学工程等多个学科，因此，大模型需要融入丰富的专业知识图谱，以确保模型输出的准确性和可靠性。鉴于这些特殊性，油气行业应用人工智能大模型面临诸多挑战和问题。

油气行业的数据大都来自地下，具有多解性、不可验证性，样本小，标签数据获取困难。同时，大模型需要学习海量数据，但油气行业对于数据的安全性、保密性要求较高，普遍面临数据“孤岛”问题。如何在确保油气行业数据不上公有云、不泄露的前提下，整合数据，训练行业基础模型，成为油气行业大模型应用的一项关键挑战。

油气行业大模型概念混淆。人工智能大模型指的是拥有数亿乃至数万亿参数量的深度学习模型，其核心在于通过海量数据的训练，实现对复杂模式的学习和知识的内化。油气行业通常使用的模型实际上主要是复杂的地质模型，这些模型是基于地球物理、地质学、油藏工程等多学科数据构建的，旨在模拟和预测地下油气藏的分布、结构、流体行为等。这类模型对于指导油气田的勘探部署、开发方案设计及生产优化具有重要作用，其“大”更多体现在模型的复杂性和涵盖的广阔地理空间上。

问：油气行业大模型应用展望

答：油气行业大模型应用虽然面临重重挑战，但是仍亟需加快推进。油气行业大模型应用首先要充分认识大模型。大模型不是万能的，一个模型不能解决油气勘探开发的所有事情。不能期望大模型会在各个领域超过或替代传统深度学习，应该以业务需求为导向，以解决具体问题为准则，研发面向油气特定分析应用的模型。在逐步积累的基础上，具备条件后研发一个满足多种应用需求的大模型。

油气行业在应用大模型时，要始终聚焦油气主营业务需求，以解决实际问题、创造业务价值为核心，应避免陷入通用基础模型的技术竞赛。大模型的核心理念是通过少数人集中训练一个强大的基础模型，然后由广泛的用户群体在各自特定任务或场景下，只需使用少量标签样本进行微调，就能获得相当好的性能对于大语言模型，国内外已陆续推出了多款油气行业大语言模型。油气行业应秉持资源优化配置的原则，将核心聚焦在油气主营业务上，从投入成本、产出效益、技术成熟度和稳定性、行业聚焦以及核心竞争力等方面慎重考虑，并充分论证是否自建大语言模型。

以大模型应用为契机，加强“人工智能+能源”复合团队建设，推动大模型技术自主可控。油气行业在大模型技术应用的过程中应该借助技术发展的契机，不断探索创新，在解决挑战的同时促进技术与业务的深度融合，推动油气行业向着“人工智能化+能源化”的方向发展。

刘院士总结性发言：与传统AI技术相比，大模型表现出了泛化性、通用性和涌现性3个特点。泛化性指的是模型对未曾见过的数据的适应能力，通用性指的是模型对各种不同任务的处理能力，而涌现性则是指当模型变得足够大和复杂时，展现出一些小模型无法做到的能力。大模型在少量数据学习和零样本学习方面具有强大能力，能够处理一些没有训练数据的任务。虽然大模型有很多优势，但是也存在缺点，比如需要很多计算资源来训练和使用，有可能会放大数据中的偏见，而且在某些具体领域的知识上可能不如专门训练的模型准确。

我国政府对大模型技术的发展非常重视，通过政策和资金支持，努力推动大模型在各个行业的应用。最近一年来，大模型已经在法律、医疗、城市建设等许多领域迅速发展，并展现出很大的潜力。在油气行业，大模型可以帮助解决人工智能应用中遇到的“少样本”和“多模态数据分析”等问题，有助于提高生产力。我们可以展望，未来大模型在油气行业的应用前景会更加广阔而有效。