ibm(纽约证券交易所代码:ibm)和美国宇航局(nasa)马歇尔太空飞行中心最近宣布展开合作,利用ibm的人工智能(ai)技术,从nasa海量的地球与地理空间科学数据中发掘新洞察。这项合作是首次把ai基础模型技术应用于nasa的地球观测卫星数据。
基础模型是在一组广泛的未经标记的数据上进行训练的ai模型类型,可用于不同任务,并且可以举一反三,将某一情况的信息应用于另一种情况。过去五年,这类模型快速推进了ai自然语言处理(nlp)领域的技术发展,现在,ibm正在探索和开创除npl领域之外更多的基础模型应用场景。
地球观测工作使科学家研究和监测地球成为可能,同时这项工作也正以前所未有的速度和数量在收集数据,迫切需要借助新的创新方法从这些庞大的数据源中提取知识。此次ibm与nasa携手合作的目标,就是要为研究人员提供一种更为简单的方法来分析这些大型数据集,并从中获取见解。ibm的基础模型技术有望加快这些数据的发现与分析,从而快速推进人类对地球的科学理解以及对气候相关问题的响应。
ibm和nasa计划开发几项新的技术来从地球观测工作中提取见解。其中一个项目将在nasa的harmonized landsat sentinel-2(hls)数据集上训练ibm的地理空间智能基础模型,hls数据集记录了地球轨道卫星所捕获的土地覆盖和土地利用变化的数据,通过分析这些pb量级的卫星数据,来确定自然灾害、周期性作物产量和野生动物栖息地等现象的地理足迹变化,这一基础模型技术将帮助研究人员对地球的环境系统进行重要的分析。
这项合作的另一个输出成果,预计将会是一个易于搜索的地球科学文献语料库。ibm开发了一个nlp模型,经过近300,000篇地球科学期刊文章的训练,该模型可以组织相关文献并且可以更为轻松地发现新知识。这一训练完备的模型,包含了迄今为止在红帽openshift软件上训练的最大的ai工作负载,使用ibm的开源多语言问答系统primeqa。除了为研究人员提供资源外,还可以把地球科学的新语言模型注入nasa的科学数据治理以及管理的流程当中。
nasa马歇尔太空飞行中心的高级研究科学家rahul ramachandran表示:"这些基础模型的美妙之处在于它们可以应用于许多下游应用。而建立这些基础模型,小团队是无法做到的,只有通过来自不同组织的团队引进不同的视角、资源和技能,携手合作才能做到。"
ibm首席研究员raghu ganti说:"基础模型的成功已经在自然语言处理(npl)的应用中得到证明,现在是时候把它扩展到对商业和社会极为重要的新的领域和模式上来了。将基础模型应用于地球科学数据中的地理空间、事件序列、时间序列和其它非语言因素当中,可以使更广泛的研究人员、企业和民众即刻获得极有价值的见解和信息。最终,它或许可以帮助更多有志之士致力于解决我们最为紧迫的气候问题。"
该协议中其它潜在的ibm-nasa联合项目,还包括使用大气观测数据集merra-2构建天气和气候预测的基础模型。这项合作是nasa开源科学计划的一部分,该计划致力于在未来十年内建立一个包容、透明和协作的开放科学社区。