全部版块 我的主页
论坛 数据科学与人工智能 数据分析与数据科学 数据分析与数据挖掘
2301 0
2022-04-27

这是正确的。只需 1 台服务器和 10 行代码即可在几百毫秒内搜索 10 亿张图像。它易于使用几行代码来处理大规模的反向图像搜索。其卓越的独立性能可满足您对低延迟、实时搜索的需求。它对分布式系统和云原生扩展的支持始终可以处理 100 亿或 1000 亿规模的搜索。它就是 Milvus,一个出色的高性能矢量搜索引擎。11 月 5 日,Milvus 团队在 GitHub 上正式宣布 Milvus 为面向全球开发人员和 AI 科学家的开源项目。

非结构化数据、人工智能和向量搜索

随着信息技术的发展,我们正在经历数据爆炸和数据类型的有趣变化。自 1900 年代中期电子计算机问世以来,开发人员一直在处理结构化数据(整数和浮点数等)、2000 年前后互联网时代的半结构化数据(网页和日志)以及非结构化数据(图像、视频、 2012 年左右 AI 时代的语音、文本等)。

对于每种类型的数据,计算机科学家都创建了索引算法来组织、搜索和分析数据。对于结构化数据,常见的索引算法包括Oracle、DB2等关系型数据库中使用的Bitmap、hash table、B-tree等。对于半结构化数据,常见的索引算法包括在 Solr 和 ElasticSearch 等搜索引擎中使用的倒排索引。

使用传统的计算方法和处理器很难处理和挖掘非结构化数据。计算机科学的这个瓶颈在 AI 算法出现之前没有突破,它使用模型(CNN、RNN、VGG 和 BERT 等)将图像、视频、语音和文本转换为相应的特征向量。每个特征向量由一串整数或浮点数组成。AI算法将复杂的非结构化数据处理转换为对计算机处理器更友好的向量计算。诸如反向图像搜索、反向视频搜索和自然语言处理 (NLP) 等任务成为基于欧几里德距离或余弦相似度的向量相似度计算。


5378867499-1.jpeg


AI算法将非结构化数据转换为向量

虽然计算向量相似度相对简单,但非结构化数据的数量远大于传统的结构化和半结构化数据(超过 3 个数量级)并且增长更快(1 KB 结构化数据与 1 GB 非结构化数据数据)。大规模向量的相似度计算已成为人工智能算法大规模部署的挑战之一。于是,ANNS(近似最近邻搜索)应运而生。ANNS 对相似向量进行聚类以减少搜索空间并减少计算负载,从而加快向量搜索速度。常见的ANNS算法有量化、树、图、组合算法(tree-graph、quantization-graph)等。

高性能矢量搜索引擎

Milvus 采用世界领先的 ANNS 索引技术,对前 5 名搜索的召回率达到 99%。数据加载速度达到每分钟100万条以上。Milvus 支持异构加速,兼容 x86/GPU/ARM/Power 架构。未来,它还将支持 TPU 和其他 ASIC 处理器。在单机场景下,Milvus 可以在一秒钟内搜索到十亿级向量。分布式系统和云原生扩展也可以处理 100 亿或 1000 亿规模的搜索。Milvus 在 Apache License 2.0 版本下获得许可。

5379052881-1.jpeg

在 Milvus 的开发过程中,我们对 ANNS 算法进行了深入研究,查阅了大量的论文和参考资料。我们不断调整硬件和软件架构,精心设计和调整每个算法,并针对不同的处理器和指令集进行了大量优化。总的来说,我们已经完成了超过 3600 次提交、5 个版本和 70000 行源代码。

经过 300 天的努力,我们终于发布了 Milvus 的第一个稳定版本 0.5.1,并在多家知名科技公司完成了严格的测试和生产部署。我们最近开源了 Milvus,帮助更多的开发者应对更多 AI 场景的非结构化数据中的机遇和挑战。我们也希望吸引一群极客加入我们的开源社区,继续开发和改进 Milvus。我们的目标是让 Milvus 成为具有全球影响力的下一代非结构化数据搜索引擎。

应用场景

那么,我们可以将 Milvus 应用到哪些领域呢?例如,一个电子商务网站包含大约 5000 万个产品 SKU。平均而言,每个产品都有 20 张来自供应商和客户评论的图片。后端总共存储了 10 亿张图像。开发者可以使用预训练好的 AI 模型,将这 10 亿张图片转化为 10 亿张特征向量,然后使用 Milvus 按图片搜索商品。因此,客户可以通过反向图像搜索方便地找到他们喜欢的产品。

除了反向图像搜索,Milvus 还可以处理海量的非结构化数据,例如视频、语音和文本。例如,一个视频UGC网站每天上传100万条短视频,每条短视频时长1分钟,分辨率720P。每 2 秒检索一次关键帧图像。每月将有 9 亿个关键帧,每年将有 108 亿个关键帧。开发者可以使用 AI 模型将 108 亿个关键帧转换为 108 亿个向量,然后使用 Milvus 进行反向视频搜索,方便用户导航到自己感兴趣的视频片段。

Milvus 还可以帮助 NLP 开发人员处理大规模重复文本检测和语义搜索等任务。通过这种方式,搜索引擎开发人员可以实现推荐系统和精准广告。

目前,Milvus 已被 10 多家知名科技公司采用,助力互联网娱乐(反向图片/视频搜索)、新零售(按图搜索商品)、智能金融(用户认证)、智能物流(车辆识别)等领域, ETC。



      相关帖子DA内容精选
  • 大厂数据分析面试指南!来自亚马逊、谷歌、微软、头条、美团的面试问题!
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

相关推荐
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群