Silo AI发布了实现低端机器学习民主化的新版本

Silo AI推出了全新的版本,实现了低端机器学习的民主化

自从OpenAI在世界上发布了ChatGPT并普及了像foundational model(基础模型)、LLM和GenAI这样的名词,一年已经过去了。然而,生成AI技术所承诺的好处仍然更有可能由会说英语的人获得,而不是其他语言的人。

世界上有超过7,000种语言。然而,大多数大型语言模型(LLMs)在英语中的效果要好得多。自然而然,这就威胁到了在获取知识、研究、创新以及对企业的竞争优势时的语言偏见的加剧。

在11月,芬兰的Silo AI与图尔库大学合作发布了其多语言开放的欧洲LLM Poro 34B。Poro在芬兰语中意味着驯鹿,它是在芬兰卡亚尼的欧洲最强超级计算机LUMI上进行训练的。(有趣的是,LUMI使用AMD架构,而不是目前流行的LLM训练用的Nvidia。)

除了Poro 1之外,公司还推出了一个研究检查点计划,模型完成后将发布检查点(前三个检查点已经在上个月与模型一起宣布)。

现在,通过其分部SiloGen,该公司已经训练了超过50%的模型,并刚刚发布了程序中的下两个检查点。通过这五个已经完成的检查点,Poro 34B在低资源语言(如芬兰语)上表现出了最佳性能(与Llama、Mistral、FinGPT等相比),同时不降低在英语中的性能。

来自TurkuNLP的研究员Sampo Pyysalo表示,他们希望在接下来的几周内完全训练好该模型。作为下一步,该模型将新增对其他北欧语言的支持,包括瑞典语、挪威语、丹麦语和冰岛语。

“对于欧洲的数字主权来说,拥有与欧洲价值观、文化和语言相一致的语言模型是至关重要的。我们很自豪看到Poro在像芬兰语这样的低资源语言中表现出了最佳性能,”Silo AI的联合创始人兼首席执行官Peter Sarlin告诉TNW。“符合涵盖所有欧洲语言的意图,将开始扩展到北欧语言是一个自然的步骤。”

此外,SiloGen已经开始训练Poro 2。通过与非盈利机构LAION(Large-scale Artificial Intelligence Open Network)的合作,它将为该模型添加多模态性。

“为Poro增加视觉也是理所当然的,”Sarlin补充道。“像文本数据一样,我们认为生成AI对于整合不同形式的大量数据有更大的潜力。”

LAION表示,他们“对推动机器学习领域的进展充满激情。”与Silo AI为构建其GenAI模型的意图以及LAION全面增加对大规模ML模型和数据集的访问的使命一致,Poro 2将在Apache 2.0许可下免费提供。这意味着开发者也将能够在其基础上构建专有解决方案。

在2017年成立的Silo AI自称是“欧洲最大的私人AI实验室”,其理念是欧洲需要一个AI旗舰。该公司总部位于芬兰赫尔辛基,构建AI驱动的解决方案和产品,以实现智能设备、自动驾驶车辆、工业4.0和智能城市的发展。目前,Silo AI拥有超过300名员工,并在瑞典、丹麦、荷兰和加拿大设有办事处。