现阶段,大语言模型的飞速发展吸引着社会各界的目光,背后支撑模型应用落地的Embedding模型也成为业内关注的焦点。近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在千行百业中产生应用价值。
MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型(Embedding模型)评估指标的合集,是目前业内评测文本向量模型性能的重要参考。对应的C-MTEB则是专门针对中文文本向量的评测基准,被公认为是目前业界最全面、最权威的中文语义向量评测基准之一,为深度测试中文语义向量的全面性和可靠性提供了可靠的实验平台。
Embedding模型能够将单词、句子或图像特征等高维的离散数据转换为低维的连续向量,捕捉数据的语义特征和关系,被广泛应用于搜索、推荐、问答、检索增强生成、数据挖掘等领域。在互联网时代,随着信息量急剧膨胀,人们接触信息的渠道不断拓展,大量无关信息已成为信息检索的干扰项。Embedding模型能够显著提高信息搜索和问答的质量、效率和准确性,让搜索和问答引擎不再只是匹配文字,而是可以真正理解人的意图。