您现在的位置是:首页 > 人工智能人工智能
向量将死,哈希是 AI 未来
cc博主2021-10-09【人工智能】930人已围观
校对 | 青暮
人工智能是建立在向量算法的基础上的,但最新的进展表明,对于某些 AI 应用程序而言,它们可以使用其他二进制来表示(例如神经哈希),以提供更小的内存占用和更快的反馈速度。
事实上,人工智能的许多领域都可以从向量变为基于哈希的结构,带来飞跃的提升。本文将简要介绍哈希背后的应用逻辑,以及它为什么可能会成为 AI 的未来。
哈希
哈希函数(Hash function):一个哈希函数H(x)可用于将任意大小的数据 x 映射成固定大小(通常选256bit)的值。返回值(映射后的值)又称为哈希值(hash values)、摘要(digests)或哈希(simply hashes)。
哈希在数据的准确性识别、数据存储大小、性能、检索速度等方面具有突出的优势。更重要的是,它们本质上是概率性的,因此多个输入项可以共享相同的哈希值。
在向量表示中,浮点数往往是首选的数据表示形式,尽管它们在本质上比哈希更绝对,但它们却并不精确。
浮点数
要了解 AI,首先需要了解计算机是如何表示非整数数字的。
对于微小的数值变化(关于向量计算),二进制表示也可以有很大的不同,这些数值变化对模型预测几乎没有影响。
例如:取 0.65 vs 0.66 在 float64(64 位浮点)二进制中可以分别用这两个二进制数表示:
11111111100100110011001100110011001100110011001100110011001101
11111111100101000111101011100001010001111010111000010100011111
从这里可以非常清楚看到,虽然从 0.65 到 0.66 仅仅只有 1% 的大小变化,但是转化为二进制后,在 64 位数字中就有 25 位是不同的,差别巨大。
对于神经元来说,这听起来像是一件愚蠢的事情,人类的大脑肯定不会这样工作,它们显然不会使用浮点二进制表示来存储数字,除非有人可以记住圆周率小数点后六万多位。
事实上,我们的大脑神经网络是非常形象的,在处理复杂的小数和分数方面非常擅长。但是,当我们算到一半或四分之一时,就会立即想象出一些东西,比如半杯水、四分之一杯水或者披萨等其他东西,可能根本没有想到尾数和指数。
一个常用的提高浮点运算速度和使用更少空间的方法是将分辨率降低到 float16(16位),甚至是float8 (8位),它们的计算速度非常快,但缺点是,它会造成分辨率的明显下降。
由于浮点数运算很慢,所以它真的没有一点优势吗?
答案是否定的。芯片硬件和它们的指令集被设计来提高效率,并使更多的计算并行处理,而 GPU 和 TPU 现在正在被广泛使用,因为它们处理基于浮点的矢量算法更快。
神经哈希
事实证明,二进制的计算速度比基于浮点数的算术快得多。那么,如果可以在局域敏感的二进制哈希空间中表示 0.65 和 0.66,这能使模型在推理方面更快吗?
研究表明,有一系列哈希算法的确可以做到这一点,它被称为局部敏感哈希(LSH)。原始项越接近,其哈希中的位也越接近相同。
不过,这个概念并不是什么新鲜事,只是最新的技术发现了更多的优势。从历史上来看,LSH 使用了诸如随机投影、量化等技术,但它们的缺点是需要较大的哈希空间来保持精度,因此其优点在某种程度上被抵消了。
对于单个浮点数来说这是微不足道的,但是具有高维数(多个浮点数)的向量呢?
因此,神经哈希的新技巧是用神经网络创建的哈希替换现有的 LSH 技术,以此得到的哈希值可以使用非常快速的 Hammin 距离计算来估计它们的相似度。
这听起来虽然很复杂,但实际上并不太难。总体来看,神经网络就是优化了一个哈希函数,具体表现如下:
与原始向量相比,几乎完美地保留了所有的信息;
生成比原始向量尺寸小得多的哈希;
计算速度明显更快;
也就是说,以一种较小的二进制表示,它不仅可用于非常快速的逻辑计算,并且信息分辨率也是几乎不变的,是一个两全其美的解决方案。
一般研究用于密集信息检索近似最近邻 (ANN)时,往往可以使用向量表示来搜索信息,这样可以帮助用户找到概念上相似的一些东西。但是,哈希中的局部敏感性却拥有更加强大的优势。
密集信息检索
互联网时代,数据库是不可计数的,但搜索索引却寥寥无几,而且大多数索引都是基于相同的老技术,这主要是因为历史上语言是一个基于规则的问题。
标记、同义词、词干提取、词形还原等问题占据了许多天才的整个职业生涯,但仍未完全解决。
谷歌创始人拉里佩奇(Larry Page)曾说过,在我们的有生之年,“搜索”并不能得到解决。
想想看,这一代如此绝顶聪明的人,投资数十亿美元为何还得不到解决?
很明显,搜索技术落后于数据库主要是由于语言问题,我们在过去几年中看到了语言处理方面的革命,而且还在加速。并且从技术角度来看,我们还将看到基于神经的哈希消除搜索和数据库技术的障碍。
参考来源:https://medium.com/@hamishogilvy/vectors-are-over-hashes-are-the-future-of-ai-98c4dc33d8ee
cc博客网cc博客网(公众号:cc博客网)cc博客网
cc博客网版权文章,未经授权禁止转载。详情见转载须知。
相关文章
- 大国为何比拼陆地作战机器人?
- 北大校友“炼丹”分享:OpenAI如何训练千亿级模型?
- 免费网络加速器节点分享-最新酸酸乳链接每日更新2021/10
- 提前 3 年布局、市场份额暴增,视频会议风口里的君正
- 34.42亿元,美团收到创立以来最大笔罚单!曝微信后台数次偷看用户相册,每次长达1分钟;贾跃亭回应做空报告: 冷饭热炒,无稽之谈! | 雷锋早报
- 深信服圆满完成第十四届全运会安保指挥部网络安全保障工作
- 全球第二大私营企业!马斯克旗下SpaceX估值突破1000亿美元
- 如何让云平台“更好管”?华为云集中运维加速企业创新步伐
- 小火箭SSR节点购买机场小火箭(Shadowrocket)配置ss/ssr教程
- 你吃的每口好丽友·派,都是数字化「做」的
猜你喜欢
最新实时免费ssr节点,永久免费节点每天更新v2ray2022/5/22
技术好文最新实时免费ssr节点,永久免费节点每天更新v2ray,今日周日,为大家提供最新白嫖ssr节点及v2ray节点链接分享建议点击付费节点右侧栏目图。资源在2022年5月22日15点更新。免费资源并不容易。请珍惜它。蜗牛SEO将继续更新可用资源,并尽最大努力更新更...
阅读更多最新免费ssr机场节点分享-v2ray机场节点-24小时更新(2022/4/28)
技术好文最新免费ssr机场节点分享-v2ray机场节点-24小时更新今日周四,为您提供免费SSR节点和v2ray节点链接共享,并于2022年4月27日17:01更新。建议点击付费节点右侧栏目图。资源在星期天更新。免费资源并不容易。请珍惜它。蜗牛SEO将继续更新可用资源...
阅读更多向真实世界应用进军:持续自监督学习的挑战
人工智能在 Yann Lecun 等人的推动下,自监督学习成为了深度学习领域最受瞩目的技术之一。互联网世界源源不断产生的数据流无疑是充分发挥自监督学习能力的最佳土壤。然而,将自监督学习应用于自然场景将面临哪些严峻的挑战?且看来自 CMU 的 Abhinav Gupta...
阅读更多荣耀联合高通深度打磨,荣耀Magic4系列充分释放骁龙8顶级性能
业界3月17日,荣耀新一代智慧旗舰荣耀Magic4系列在国内正式发布。作为荣耀科技创新实力的又一力证,荣耀Magic4系列再度携手全新一代骁龙8移动平台,实现屏幕、影像、性能、安全等领域的全方面进阶。骁龙8系移动平台一直都是顶级安卓移动体验的代名词。荣耀Mag...
阅读更多检查性功能障碍的方法
健康问答男性朋友在生活当中总会出现一些难言之隐,因为性功能障碍疾病会影响到自己的家庭生活,也会给自己的身心健康造成一定的隐患,在出现了性功能障碍疾病时,往往会造成患者阳痿、早泄、遗精、不射精或者是性欲障碍,那么检查性功能障碍的方法有哪些呢,下面我们就一起来看看吧。...
阅读更多