您现在的位置是:首页 > 业界业界
阿里云推出大规模视觉语言模型Qwen-VL 已在ModeScope开源
cc博主2023-08-26【业界】219人已围观
阿里云今日推出了大规模视觉语言模型Qwen-VL,目前已经在ModeScope开源,IT之家早前曾报道,阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。
据悉,Qwen-VL是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的LVLM模型通常仅支持224分辨率。
官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。
此外,在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。
通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于GPT-4打分机制的测试集 “试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。
Tags:
相关文章
- 紫光国微上半年营收37亿元 净利润接近14亿元
- 可以上twitter的加速器账号分享-免费NPV加速v2ray节点云梯子-每日更新(2023/8/26)
- 聚焦无损音频 旷世推出两款旗舰级解码耳放产品
- 2023成都车展 合资车最后一次在中国唱主角?
- 特斯拉CEO马斯克对电动皮卡Cybertruck生产“精度”有担忧
- 李跳跳叮小跳等跳过广告软件收到大厂律师函 声称构成不正当竞争
- Keep上半年营收9.85亿元 调整后净亏损收窄至2.23亿元
- 东方甄选2023财年带货GMV达到100亿元 净利润9.71亿元
- SK On将在韩国建设第三座电池工厂 可能向现代汽车供货
- 山海炮性能版硬核亮相成都车展 23款黑弹焕新上市 售价25.88万元
热评文章
公益免费Clash节点机场分享,永久v2ray节点梯子每日更新(2024/11/14)
ssr小火箭添加节点地址,小火箭免费节点下载,v2ray小火箭订阅链接更新(2024/11/13)
长期免费ssr节点机场分享-永久v2ray节点梯子周末更新(2024/11/16)
当大模型升级速度变缓,AI Infra 创业还是一门「好生意」吗?
共筑开源技术新篇章 2024 CCF中国开源大会盛大开幕
黑五促销:云服务器年付4.5折,轻量云服务器年付5折,续费同价
外网加速器免费下载安卓手机_外网加速器免费下载安卓手机可以用吗
苹果手机telegreat中文版下载_苹果手机telegreat中文怎么设置
旋风xf9.im加速器_旋风xf9im加速器官网
Telegram2021最新参数_telegram最新参数代码2024