OpenAI发布新一代向量大模型text-embedding-3,embedding长度升级,价格最高下降5倍!包含2个版本!

chatgpt2024-05-29 13:29:15341

先做个广告:如需代充值GP4会员及购买GPT帐号,请添加站长客服微信:gptchongzhi

本文原文来自DataLearnerAI官方博客:

推荐使用ChatGPT中文版,国内可直接访问:https://ai.gpt86.top 

https://www.datalearner.com/blog/1051706229448685

由于大语言模型输入长度的限制,基于外挂知识库的检索生产(Retrieval Augmented Generation,RAG)是大模型应用中非常流行的技术。检索增强生成中的一个核心步骤是检索。而基于向量相似性检索是这类系统中最重要的技术之一。决定向量检索准确性的核心是向量大模型的能力,即文本转成embedding向量是否准确。今天,OpenAI宣布了他们第三代向量大模型text-embedding,模型能力增强的同时价格下降!

OpenAI第三代向量大模型text-embedding-3简介

OpenAI不同的向量大模型对比

第三代OpenAI向量大模型text-embedding-3与其它模型对比

    OpenAI第三代向量大模型text-embedding-3简介

    embedding向量是一个数字组成的向量,可以表示自然语言或者代码的语义。基于这个向量可以得出不同文本或者代码内容之间的相似性,在知识检索中用处很高。本次OpenAI发布的向量大模型包括2个版本,分别是text-embedding-3-smalltext-embedding-3-large

    其中,前者是规模较小但是效率很高的模型,前任模型是2022年12月发布的text-embedding-ada-002。后者是规模更大的版本,最高支持3072维度的向量!这是目前OpenAI最强大的向量大模型,比前代的模型强很多,在MIRACL和MTEB上的得分都有提升。

    OpenAI不同的向量大模型对比

    当前OpenAI不同向量大模型的对比:

    从上表可以看出,为了权衡生成速度和准确性,OpenAI提供的新的向量大模型text-embedding-3支持dimensions参数,可以选择生成不同长度的向量。而更长的向量效果更好,但是成本更高,速度更慢。从价格上来说,text-embedding-3-small和前一代的向量大模型维度一致,效果略强,不过价格下降5倍!而更大版本的向量模型价格也比前代模型也有下降,下降约45%左右!



    这一次,OpenAI向量大模型最大的特点应该就是可以支持输出不同维度的结果并且价格下调,开发者的选择更加丰富。

    第三代OpenAI向量大模型text-embedding-3与其它模型对比

    不过,从MTEB评分结果看,尽管text-embedding-3-large最高已经达到64.6分,但是MTEB排行榜上依然只能拍第四。目前前三名如下:

    排名模型名称模型大小(GB)输出向量维度输入长度MTEB平均分
    1voyage-lite-02-instruct/1024400067.13
    2e5-mistral-7b-instruct14.2240963276866.63
    3UAE-Large-V11.34102451264.64

    不过,这些模型的使用成本可能比OpenAI的略高。

    chatgpt plus(GPT4)代充值

    本文链接:https://hengqin123.com/chatgpt_444.html

    chatgpt代注册服务chatgpt可以注册吗MindShowchatgpt注册好了之后如何使用chatgpt注册好以后怎么用chatgpt注册用什么手机号官网ChatGPT4.0中文版chatgpt怎么注册GPT4如何使用GPT4购买

    相关文章