您现在的位置是：首页 > 人工智能人工智能

漆远获新融资，阿里云参投；芯原创始人直言百模大战就是“群模乱舞”，是在浪费电；英伟达今年在华将交付超100万颗芯片丨AI情报局

cc博主2024-07-09【人工智能】121人已围观

融资快报

无限光年完成新一轮融资：无限光年的核心产品是可信大模型，这是漆远认为通往人工智能通用智能的道路。可信大模型结合了大语言模型与符号推理，旨在解决大模型的幻觉问题和遗忘性灾难，提高模型的可信度和可解释性。无限光年已完成多轮融资，并与金融和医疗行业的头部企业合作，打造了针对特定行业的精专大模型。此次投资人包括阿里云、启明创投等头部投资机构。创始人漆远从蚂蚁集团副总裁任上离职后，漆远先是重返学界，在复旦担任教职，而后又产学研并行地创立了大模型公司无限光年。

Benchmark募资4.25亿美元投向AI新时代：据《福布斯》获得的一封投资者信显示，风险投资公司 Benchmark 正在为其第十一期基金募集 4.25 亿美元。新基金将被命名为 "Benchmark 1"，据悉，该公司的所有合伙人预计都会在其典型的专注领域（如消费科技、云计算或加密货币）内寻找人工智能公司。

软银宣布4亿英镑收购AI芯片公司Graphcore：日本软银宣布将以4亿英镑收购陷入困境的人工智能初创公司 Graphcore，该交易还需要获得英国政府的审查批准才能生效。Graphcore成立于2016年，生产称为智能处理器单元的AI芯片，旨在挑战英伟达。由于英伟达的设备需求量很大，投资者们纷纷向这家初创公司注入资金，寻找替代英伟达的可行方案。2020年，Graphcore以28亿美元的估值筹集2.22亿美元，使其成为英国最有前途的初创公司之一。

EvolutionaryScale获超1.42亿美元种子轮融资： 该公司创始团队的八位成员全都来自于Meta的FAIR部门。去年八月Meta官宣旗下的蛋白质折叠团队Meta-FAIR解散。EvolutionaryScale旨在通过开放、安全的研究方式，来指导蛋白质设计领域的人工智能技术开发，团队开发用于创造新型蛋白质和其他生物系统的大型语言模型ESM，已迭代到ESM-3。本次融资由Nat Friedman和Daniel Gross以及Lux Capital领投，亚马逊、NVentures和天使投资人参投。

DNEG集团获2亿美元战略投资：DNEG是好莱坞视效技术提供商，曾参与多部知名好莱坞电影的制作，如“狂怒”、“银翼杀手2049”和“星际穿越”。这一投资将推动DNEG集团新成立的Brahma，开发人工智能驱动的CGI工具，以简化视觉效果的创作过程。Brahma的AI创作者解决方案将利用超过25年的VFX数据生成逼真的视觉效果。该笔融资来自United Al Saqer Group，将使DNEG集团的估值超过20亿美元。

焱融科技完成双轮融资：焱融科技核心产品YRCloudFile 高性能文件存储系统，在 AI 和高性能计算场景中崭露头角。完成 B 轮和 B+ 轮融资，累计融资额近 2 亿元人民币。两轮融资分别由丰年资本和北京股权领投，老股东耀途资本、卓源亚洲、信雅达等知名投资机构持续跟投。

大道智创完成500万人民币融资：大道智创是一家专注于研发安保机器人的公司，主要研发和销售巡逻机器人、安保机器人等商用服务型机器人，以视觉定位为主，配合多传感器融合，在复杂环境下实现全自主定位巡航，目前已推出了一代产品“e巡 ”机器警长。投资方为中关村科技租赁。

Altrove AI获400万美元种子融资：Altrove使用AI生成无机材料的潜在配方，特别是稀土元素。融资由Contrarian Ventures领投。

Phaidra获1200万美元融资：该公司的系统从设施内的数千个传感器收集数据，并使用人工智能模型就如何更有效地管理和冷却设备做出实时决策。融资由Index Ventures 领投。

OpenLedger 筹集了 800 万美元的种子资金：用于 AI 模型开发的去中心化数据基础设施

（欢迎添加微信AIyanxishe2，了解更多AIGC、融资情况，与志同道合的朋友一同畅聊时新AI产品）

国内情报：

2024 世界人工智能大会线下参观人数创历史新高，预计总投资额超 400 亿元：

大会线下参观人数突破 30 万人次，全网流量突破 10 亿，比上届增长了 90%，据悉，本次大会对接 132 个采购团组，形成了 126 个项目采购需求，预计意向采购金额达 150 亿元，推动 24 个重大产业项目的签约，预计总投资额超过 400 亿元。本次大会的展览面积超过 5.2 万平方米，500 余家知名企业、超过 1500 项展品参展，50 余款新品首发首秀，均创历史新高。

快手可灵 AI 网页端上线，文生图大模型“可图”开源：

快手可灵 AI 网页端正式上线，所有功能限时免费。“文生视频”开放最长 10 秒生成能力，“图生视频”新增运镜控制、自定义首尾帧等功能。据悉，已有超过50万用户申请可灵的内测资格，视频生成数量达700万。此外，文生图大模型“可图”开源，已上线网页版和微信小程序，支持文生图和图生图两类功能，可用于 AI 创作图像以及 AI 形象定制。

科大讯飞大模型新增投入超 6.5 亿元、AI 学习机发布预售11699 元：

科大讯飞发布 2024 上半年业绩预告，预计净亏损 3.8 亿元至 4.6 亿元，上年同期盈利 7357.2 万元，同比下降 725.24%~616.50%。科大讯飞表示，公司在全力加大“讯飞星火大模型”研发投入的同时，加快了大模型的落地推广力度。2024 年上半年营收、毛利预计增长 15%-20%，且毛利增速高于收入增速。

此外科大讯飞近期还发布了 AI 学习机新品 T30 Ultra，内置星火大模型，屏幕尺寸为 14.7 英寸，12GB+1TB 版本到手 11699 元，将于 7 月 20 日开售。

智谱开源代码生成大模型 CodeGeeX 第四代，号称百亿以下规模性能最强：

该产品集成了代码补全和生成、代码问答、代码解释器、工具调用、联网搜索、项目级代码问答等功能，支持超过 300 种编程语言，并且能够处理 128K 上下文，这使得其能够更好地理解和处理复杂的代码文件。CodeGeeX4-ALL-9B 在 Berkeley Function Calling Leaderboard 上的测试表现超过 90% 的成功率，被誉为目前唯一能实现 Function Call 的代码大模型。

腾讯发布大模型时代的AI十大趋势，走进“机器外脑”时代：

腾讯研究院、上海交通大学、腾讯优图实验室、腾讯云智能联合发布了《2024大模型十大趋势——走进“机器外脑”时代》报告。报告指出，我们正在进入一个“机器外脑”时代。海量GPU和新一代大模型的组合起来，使人工智能在三个方向上有了实质性的飞跃：推理分析、创意生成和情绪智能。这意味着AI第一次拥有了类人的交互能能力，新一代AI正在成为人类的“机器外脑”，提供智力的外挂。

上海AI lab开源超强多模态LLM InternLM-XComposer-2.5：

上海 AI 实验室联合香港中文大学、商汤科技集团以及清华大学研发了 IXC-2.5 模型。模型具备长上下文处理能力，能够处理超长的文本和图像输入，同时在视觉能力上有特殊优势，包括超高分辨率的图像理解和细粒度的视频理解。模型架构包括轻量级的视觉编码器、大型语言模型，以及部分 LoRA 对齐技术。在 28 个基准测试中，IXC-2.5 在 16 项测试中超过了现有的开源模型，其余 16 项测试中的表现也接近或超过了 GPT-4V 和 Gemini Pro。

支付宝发布多模态医疗大模型，支持千亿级视觉识别：

支付宝多模态医疗大模型成为国内首批多模态医疗大模型之一。基于蚂蚁百灵的多模态能力，模型可实现直接理解并训练音频、视频、图、文等多模态数据，使其更像人一样感知和互动，能“看”会“听”、能“说”会“画”，支持千亿级别参数医疗视觉识别。据悉，蚂蚁百灵大模型已具备原生多模态能力，可以直接理解并训练音频、视频、图、文等多模态数据。

金山办公发布 WPS AI 2.0，新增 4 个 AI 办公助手，政务自研模型首次亮相:

WPS AI 2.0包含 WPS AI 办公助手、WPS AI 政务版等应用，并首次公开了 13B 级别的政务自研模型，金山政务办公模型 1.0。为个人用户新增了 4 个 AI 办公助手，分别为 AI 写作助手、AI 阅读助手、AI 数据助手、AI 设计助手。此次发布的金山政务办公模型 1.0 擅长公文写作，实现无口语化描述且按照公文风输出，输出的内容自带公文格式，模型了解国家相关政策，回答均基于可靠依据。

阿里“通义”APP上线特殊AI绘本工具“追星星的AI”：

这是一款为孤独症儿童提供定制 AI 绘本服务的工具。它基于阿里自研 Modelscope-Agent 框架，调用了通义大模型的多项服务，可实现从一句话故事梗概到完整有声绘本的生成。上海美术电影制片厂免费授权了旗下经典动画形象供公益绘本使用。“通义”APP 已经限时上线以孙悟空和大耳朵图图为主角的 AI 绘本。

商汤科技发布日日新5.5大模型体系：

该大模型体系包括6000亿参数基础模型日日新5.5，性能提升30%；流式多模态交互模型日日新5o，是国内首个所见即所得模型，可进行实时多模态交互和问答；日日新5.5Lite在端侧模型进行升级，模型精度提升10%、首包延迟降低40%，推理效率提升15%。

王坚称美国AI发展的电力瓶颈短板我国不存在，最不缺就是电：

中国工程院院士、阿里云创始人王坚表示，美国AI人工智能发展的瓶颈是电力，这对中国来说不是问题。“中国一年的发电量是美国、日本、俄罗斯的总和还要多”，王坚说道。另外他提出一个应用、模型、电力和算力的不等式，认为在此不等式下，目前从事人工智能的人还不用担心瓶颈问题。

MiniMax创始人闫俊杰称至少三年后才会出现“杀手级”AI应用：

闫俊杰表示，虽然国内很多公司正在迎头赶上ChatGPT，但是目前模型的错误率在60%-70%的水平，远不及GPT-4的30%-40%。类似于微信、抖音、今日头条这种规模的“杀手级”AI超级应用（Killer App），至少要到三年之后才能实现。

无问芯穹发布全球首个单任务千卡异构芯片混合训练平台，算力利用率达 97.6%：

无问芯穹联合创始人兼 CEO 夏立雪发布无问芯穹大规模模型的异构分布式混合训练系统，称千卡异构混合训练集群算力利用率最高达到了 97.6%。夏立雪还宣布无问芯穹 Infini-AI 云平台已集成大模型异构千卡混训能力，是全球首个可进行单任务千卡规模异构芯片混合训练的平台，具备万卡扩展性。

中国公司开始大量订购NVIDIA H20芯片：

摩根士丹利报告，NVIDIA特供中国市场的人工智能芯片H20系列，开始吸引包括百度、阿里巴巴、腾讯和字节跳动在内的中国科技巨头的采购兴趣。尽管H20在性能上不及英伟达的H100，其AI算力只有H100的不到15%，甚至部分性能不及Ascend 910B，但在国产AI芯片供应不足的情况下，中国厂商的选择显得有些无奈。

百度李彦宏称开源模型是智商税，闭源模型更强大、推理成本更低：

李彦宏称：“我觉得，开源其实是一种智商税”，“当你理性地去想，大模型能够带来什么价值，以什么样的成本带来价值的时候，就会发现，你永远应该选择闭源模型。今天无论是 ChatGPT、还是文心一言等闭源模型，一定比开源模型更强大，推理成本更低。”

李彦宏还指出，当前AI领域存在一种不良风气，即各个公司竞相发布新一代大语言模型，宣称自己的模型参数规模和训练数据量超越了GPT-4，但在实际应用落地方面却鲜有成熟方案。AI技术的发展不应仅仅停留在跑分和刷榜上。今天一个震撼发布，明天一个史诗级更新，但实际应用却迟迟未见。只有将AI技术应用于实际产业和场景，才能创造出真正的价值。

中国工程院院士高文称今天的人工智能是低水平智能，有一点中水平的假象：

他认为，AI技术的智能水平可以划分为低中高三阶段。低水平智能，是对显式知识的记忆和使用来表现智能，即所谓的记忆学习。中水平智能，是利用得到的少量显式知识，可以类比推理得到相关隐式知识簇。能够举一反三，触类旁通。高水平智能，是利用极少的线索，创造新知识和知识体系，例如牛顿力学和相对论。今天的人工智能，主要还是低水平智能，因为深度神经网络是使用数据训练出来的，是基于统计的模型，连知识都不能算，等到什么时候可解释了，才能算知识。“大语言模式是由不同种的知识涌现，原则上还是低水平智能，有一点中水平的假象，相当于熟读唐诗三百首，不会作诗也会吟，属于熟能生巧的范畴。”

此外高文认为，AI技术需要完善理论基础验证，并实现模型的可解释性；要严格控制人工智能的底层价值取向，实现技术的标准化；在应用阶段，需要预防人为造成的人工智能安全问题，对人工智能进行动机选择。应对强人工智能，必须加强国际合作。

阿里云创始人王坚院士称GPT的潜力还没有被完整地探索：

王坚认为，今天的AI有别于过去的AI，GPT的潜力事实上还没有被完整地探索。此外他还谈到，AI时代下一定会有新的大公司出现，也一定会有大公司“浴火重生”。对于不同规模的企业来说，大企业一定会觉得AI是“工具的革命”；小企业一定会觉得这是“革命的工具”，“如果大企业也意识到这是革命的工具，那变化就来了”。

另外阿里云 CTO 周靖人宣布通义千问开源模型下载量增长 2 倍，突破 2000 万次，阿里云百炼服务客户数从 9 万增长至 23 万，涨幅超 150%。「到今天，通义千问已经实现真正意义上的全尺寸、全模态开源，拉平了开源、闭源模型之间的差距。」

芯原创始人直言百模大战就是“群模乱舞”，是在浪费电：

在中国RISC-V产业联盟理事长、芯原微电子创始人戴伟民博士看来，当前AI领域的"百模大战"现象更像是一种资源的浪费。这种"群模乱舞"的现象实际上并不经济。要实现超越人脑智能的AI，需要不断扩大模型参数规模，这对计算力的需求呈指数级增长，将导致巨大的电力消耗。

他预测，到2028年，中国基础大模型的数量将少于10个，更理想的状态是5个。戴伟民还提到，目前全球有超过100款AI大模型，但这种模式并不可持续，他认为应该集中资源发展更高效、更环保的AI技术，而不是盲目追求模型数量。此外，戴伟民还探讨了生成式AI所需的算力芯片发展趋势，他认为未来将有更多专用芯片出现，挑战现有的GPU/GPGPU架构。

华为张平安称中国 AI 发展离不开算力基础设施的创新，必须摒弃“没有最先进芯片就无法发展”的观念：

张平安指出，华为创新的方向是将端侧的 AI 算力需求通过光纤和无线网络释放到云上，通过端云协同获得无缝的 AI 算力。通过云侧的算力，让端侧既保持了丰富的功能，又极大地降低了功耗和对芯片的依赖。他强调，中国的 AI 发展道路，追求的应该是在行业领域构筑大模型的全球领先地位。如果各行各业都积极拥抱 AI，积极地开放行业的业务场景，中国很有机会在 2B 领域构筑起全球的领先优势。

更多国内情报：

工信部透露中国算力规模位居全球第二：截至 5 月底，全国规划具有高性能计算机集群的智算中心已达十余个，智能算力在算力总规模中的比重超过了30%。目前，我国已经培育了 421 家国家级智能制造示范工厂，人工智能企业的数量也超过了 4500 家，并推动制定了 48 项智能制造相关的国际标准。

全球最大甲骨文“数据集”开源：“数字甲骨共创中心”正式开源全球最大的甲骨文多模态数据集，共包含一万片甲骨的拓片、摹本，甲骨单字对应位置、对应字头、对应释文以及辞例分组、释读顺序等数据。所有研究者都能基于该数据集研发甲骨文检测、识别、摹本生成、字形匹配和释读等算法，加速甲骨文研究智能化进程。

B站首次展出自研大语言模型：哔哩哔哩公布了多项自主研发的 AI 技术成果和 AIGC 多元创意，包括最新定制的 AI 语音声库、自研音视频大模型必剪 Studio 以及自研 AI 动态漫技术等。

百度文心智能体平台升级，向开发者免费开放文心大模型4.0：开发者在文心智能体平台上制作智能体时，可灵活选择文心大模型 3.5 或 4.0 版本。

AI罗永浩评10年前与王自如“约架”：有媒体向智谱的数字员工AI老罗提问还记得王自如吗？AI老罗表示：“可别提了，让我想起来的都是些不愉快的事，我们俩在直播辩论的时候，他那个所谓的客观独立第三方的评测，简直让人笑掉大牙。”“我可是为了真理和正义而战，他只会躲在数据后面，不敢正面回应，这种对手不提也罢。”

国内首款鸿蒙人形机器人正在蔚来、亨通等工厂检测验证：“盘古大模型 + 夸父人形机器人”将在工业和家庭两大场景同步推进应用。

国际情报：

英伟达今年在华销售额预计将达120亿美元，发货超100万颗芯片：

芯片咨询公司SemiAnalysis报告预估，今年英伟达有望在中国销售价值约120亿美元的人工智能芯片。黄仁勋曾表示，希望借助新的芯片使得英伟达在中国的业务实现最大化。英伟达有望在未来几个月内在中国交付超过100万颗定制版H20芯片，这些芯片的设计不受美国对向中国客户销售人工智能处理器的限制。据悉，每颗H20芯片的价格在12000至13000美元之间。

消息称黑客去年曾侵入OpenAI内部系统，部分AI设计细节被盗：

据悉，一名黑客去年曾成功“黑入”了OpenAI的内部消息系统，并窃取了有关人工智能技术和研究材料的敏感讨论，但黑客并未进入托管人工智能源代码的服务器。OpenAI高管在去年4月的全体员工大会上向员工和公司董事会通报了这一漏洞，但高管并未对外公开这一消息。

Meta AI 重磅发布，多标记预测模型现已开放研究：

Meta 在Hugging Face上发布了采用多标记预测方法的预训练模型，可能改变大型语言模型的开发和部署方式。这种新技术模型同时预测多个未来单词，可能改善语言结构和上下文理解，有望提高人工智能效率，加速人机协作编码的趋势。

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍：

DeepMind 研究团队提出了一种名为 JEST（多模态对比学习与联合示例选择）的新算法，旨在加快 AI 训练过程并减少所需的计算资源和能耗。JEST 算法能够以 13 倍更少的迭代次数和 10 倍更少的计算量，超越最先进的模型。这一发现揭示了数据筛选水平可以作为评判 Scaling Law 的一个新维度。JEST 算法通过从 “超级 batch” 中筛选出最具可学习性的 “子 batch”，实现了高效的数据管理和训练过程。实验结果表明，JEST 方法在效率提升和性能优化方面取得了显著成效，尤其是在多模态学习加速和数据质量引导方面。

解锁动物语言？SuperAnimal这款AI神器，颠覆人与自然的关系：

SuperAnimal是一款开源AI模型，能自动识别和分析动物的运动行为，提供精确的姿态分析；该模型通过统一的预训练模型和关键点空间映射，减少人工标注需求，提高数据整合和模型泛化能力；SuperAnimal应用于兽医学、生物医学研究和野生动物保护，使用高级模型架构和独特训练方法以提高性能和适应性。

更多国际情报：

布局 AI 等市场，格芯收购泰戈尔科技氮化镓技术和相关团队：氮化镓成为可持续高效电源管理（尤其是在数据中心）的关键解决方案。泰戈尔科技公司工程师团队将加入格芯，进一步开发氮化镓技术。

“高达”式铁路机器人在日本大范围推广：主要设计用于修剪铁轨上的树枝，固定和喷漆列车上方电缆的金属框架等等。

互联网巨头公司正合法利用用户数据来训练其 AI 模型：多家硅谷科技公司，如谷歌、Meta、X、Snap 和 Zoom 在隐私政策和服务条款中，加入了使用用户数据来训练 AI 模型的条款。

真实商战？报告称谷歌曾试图禁止苹果 Safari 浏览器用户使用 AI 摘要功能：美国司法部调查谷歌在搜索行业的统治地位，涉及谷歌每年向苹果支付超 200 亿美元费用，以成为 iPhone 的默认搜索引擎。谷歌试图增加 iPhone 用户在在 Safari 浏览器以外的平台上进行搜索的比例，目标是到 2030 年时达到 50%。为此曾考虑限制 AI 摘要功能，但最终决定不采取这一措施。

YouTube 测试“AI 音频橡皮擦”：该工具使用 AI 算法来专门检测和删除相关歌曲，创作者可轻松移除受版权保护背景音乐，而不会影响包括对话或音效在内的任何其他音频。

Product Hunt 热榜， Pygma

Pygma是一款AI驱动社交媒体管理助手，专为Instagram用户和中小企业量身打造。这款智能工具通过深度分析用户风格和受众反应，在几秒钟内生成定制化的帖子、故事和Reels内容，大大简化了社交媒体流程。

不仅提供内容创作，还集成了智能编辑、排程发布等功能，真正实现一站式社媒管理。其独特的AI生成器和编辑器，加上即将推出的目标受众分析功能，使Pygma成为提升品牌形象和吸引目标受众的强大工具。

?https://www.pygma.me/

GitHub Trending 热榜，智能办公AI助手AnythingLLM

获 YC 投资，为企业构建一站式内部 Agent 和 RAG 应用解决方案的 Mintplex Labs 开源其跨端应用 anything-llm是一款多功能AI商业智能工具，支持多种大型语言模型和操作系统。该工具提供一键安装的桌面应用程序，强调用户隐私保护，支持自定义模型和多种文档格式处理。AnythingLLM适用于个人和组织用户，可在离线环境下运行。

该工具提供全面的开发者API和外观定制选项，支持企业级和开源模型。AnythingLLM的官方网站提供了详细的产品信息，包括定价、使用方法和与其他类似工具的比较。这些特性使AnythingLLM成为一个全面的AI商业智能解决方案。

?https://github.com/Mintplex-Labs/anything-llm

开发者推荐

1.AI模型评测：Artificial Analysis

Artificial Analysis平台专注于对各大LLM API提供商进行全面基准测试，不仅评估模型输出质量，还重点关注响应速度。通过整合LMSYS Chatbot Arena、Hugging Face排行榜和斯坦福HELM项目等多方数据，Artificial Analysis为开发者提供了更全面、更实用的模型选择参考。

这一创新approach填补了现有AI评测体系的空白，特别适合对令牌生成速度要求较高的应用场景。业内专家认为，Artificial Analysis的出现将激励AI服务提供商不断优化模型性能，推动整个行业向更高效、更实用的方向发展。对开发者而言，这个网站的评测结果将帮助他们更精准地选择适合自身需求的AI模型，从而提升应用效果和用户体验。

?https://artificialanalysis.ai2.KREA免费生成和增强图像与视频

KREA 旨在通过强大的人工智能技术，让用户能够直观地生成和增强图像与视频。该平台提供了多种功能，包括实时视频生成、图像增强、视频增强以及免费访问的 AI 视频生成。此外，KREA 还推出了一系列迷你应用程序，如 “Logo Illusions” 和 “AI Patterns”，以及旧版应用程序，如 “AI Training” 和 “Canvas Project Studio”。用户需要在浏览器中启用 JavaScript 以正确查看页面。

?https://www.krea.ai/home

3.AI视频创作一条龙，达摩院“寻光”突破可控编辑难题：

寻光定位为PUGC一站式AI视频创作平台，能够实现视频创作的全流程 AI 辅助，包括剧本创作、分镜图设计、视频素材编辑等。让视频编辑像操作PPT一样简单，主要用于辅助创作剧本、分镜图，支持对素材进行AI编辑，包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能，解决了 AI 视频内容的可控编辑问题。

?https://xunguang.damo-vision.com/

前沿技术

1.LivePortrait：AI 肖像动画技术

快手科技团队推出 LivePortrait，这是一种基于隐式关键点框架的高效肖像动画技术。它能从单张源图像和驱动视频生成生动的视频，展现出优秀的泛化能力、可控性和效率。

研究者通过扩大训练数据集、采用混合训练策略、升级网络架构等方法提升了生成质量。LivePortrait 在 RTX 4090 GPU 上每帧仅需 12.8 毫秒，效果媲美扩散模型方法。该项目的推理代码和模型已开源。

?https://liveportrait.github.io/

2.通义语音团队开源了语音基座大模型，SenseVoice和CosyVoice：

SenseVoice多语言音频理解大模型：多语言语音识别在中文和粤语上相比Whisper相对提升+50%，推理速度快15倍，并且支持SOTA的情绪识别和音频事件检测。

CosyVoice多语言音频生成大模型：通过超过17万小时的多语言音频数据训练，支持多语言、音色和情感控制，CosyVoice则在多语言语音生成、零样本语音生成、跨语言声音合成和指令执行能力方面表现卓越。

?https://fun-audio-llm.github.io/

3.斯坦福大学发布OccFusion，可完整渲染出被遮挡的人体：

OccFusion 是一种基于高效 3D 高斯分片和预训练 2D 扩散模型的人体渲染技术，它能在人体被部分遮挡的情况下渲染出完整的形态。OccFusion 在 ZJU-MoCap 和 OcMotion 序列上进行了评估，表现出色，达到了遮挡人体渲染的最新水平。整个训练过程仅需在单个 Titan RTX GPU 上花费 10 分钟。

?https://cs.stanford.edu/~xtiange/projects/occfusion/

4.浦语灵笔 IXC-2.5 展现多模态实力

上海人工智能实验室最新推出的浦语灵笔 IXC-2.5 模型引发业界关注。这款基于7B LLM的多模态大模型在图像和视频理解方面表现出色，据称能力可与GPT-4V相媲美。其特色功能包括高分辨率图像理解、精细视频分析和多轮多图像对话。该模型还拓展了实用领域，能够自动生成网页和创作高质量文章，利用逐步推理方法确保长文本内容的逻辑性和连贯性。浦语灵笔 IXC-2.5 的推出为人工智能在多模态应用领域开辟了新的可能性。

?https://huggingface.co/spaces/Willow123/InternLM-XComposer

5.推荐系统新范式：DiffMM开启多模态精准推荐时代

港大和腾讯研究人员联手打造的DiffMM多模态推荐系统引发业界关注。这一创新模型通过构建包含用户和视频多元信息的图谱，并结合图扩散技术和对比学习方法，实现了对用户喜好的深度理解。在三个公共数据集的实验中，DiffMM展现出卓越性能，超越现有基线模型。该项目已开源，为推荐系统研究提供了新思路，有望在短视频等领域带来更精准的个性化推荐体验。

?https://github.com/HKUDS/DiffMM

6.快手AI绘画新里程碑：Kolors模型双语图像生成

快手科技旗下Kolors团队近日推出了一款突破性的文本到图像生成模型Kolors。这一基于潜流扩散技术的大规模模型在数十亿文本-图像对上进行训练，在视觉质量、语义准确性和中英文字体渲染方面均展现出卓越表现。Kolors支持中英双语输入，特别在生成中文内容时表现出色。通过人类专家评估和机器评测，Kolors在视觉吸引力和整体满意度方面均领先于现有开源和闭源模型。

?https://github.com/Kwai-Kolors/Kolors

热议话题

AI应用现状:期待与现实的差距

Retool 2024年上半年AI状况报告指出AI应用的真实情况：

1.AI采用，进展缓慢但稳定：AI在企业中的实际应用进展并不如想象中迅速。报告显示，仅有约30%的受访者认为他们的公司在AI采用方面处于"运行"或"飞行"阶段，这一比例甚至较2023年有所下降。

2.AI影响尚未达到变革性水平：尽管AI已在多个领域得到应用，但影响力似乎被夸大了。受访者给出的平均影响评分仅为6.7/10，远未达到"变革性"的程度。

3.投资态度，谨慎乐观：尽管AI的实际影响有限，但大多数企业并不认为他们在AI上投资过度。相反，42%的受访者认为投资"恰到好处"，40.5%甚至认为投资"不够"。企业对AI的长期潜力持乐观态度，愿意继续投入资源。

4.AI应用场景以内部为主，外部谨慎：企业更倾向于在内部应用AI技术。最常见的用例包括编写代码或查询(42.1%)、知识库问答(36.4%)和支持聊天机器人(33.9%)。相比之下，面向客户的AI应用相对较少。这种倾向可能源于企业希望在内部环境中先行试验和完善AI应用，以降低风险。

5.OpenAI独占鳌头，新星崭露头角：在AI技术栈方面，OpenAI的模型仍然主导市场，GPT-4和GPT-3.5合计占据70%的份额。不过像Anthropic的Claude 3和Mistral这样的新兴模型正在崭露头角，AI技术生态趋向多元化。

6.潜力巨大，道路漫长：业内人士对AI未来发展保持乐观。总的来说，AI技术的发展正处于一个关键的转折点。虽然其影响力尚未达到预期，但企业和开发者正在积极探索和实践，为未来的突破奠定基础。

?https://retool.com/blog/state-of-ai-h1-2024

敬请期待明日的最新动态！