本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。
原文共计177458 字,简读后为9358字,阅读时间为23分钟,为您提高阅读效率为1930%
- Meta 实施了20多项生成AI增强功能 🚀
- Gemini AI 是否对公众开放? 🌐
- Gemini AI 已发布吗? 🤔
- 谷歌更新 Notebook LM AI 笔记应用,加入全新 Gemini Pro 模型 📚
- Google Gemini AI:注册、登录和使用 🌐
- 伊隆·马斯克的xAI公司面临资金猜测 💰
- 马斯克:Grok AI 测试版已对美国所有 X Premium + 订阅者正式开放 🚀
- AI PC产业创新论坛成功举办,“联想AI PC先锋行动”重磅发布_极客网 🖥️
- Pika Labs 1.0 新功能 🆕
要点解析:
-
作为国内大模型的领军企业,百度以AI重构为契机,将大模型应用于移动生态。百度文心一言作为代表,通过AI原生化改造提升广告收入,强调订阅制商业模式。百度移动生态逐步巩固市场地位,AI重构引领业务发展。
-
百度OKR显示,大模型在移动应用中占据核心地位,尤其在广告领域。百度文心一言的商业化探索表明大模型在用户侧的应用潜力。李彦宏与何俊杰的OKR调整反映出大模型与AI在百度战略中的重要性。
-
2023年,百度以AI为引领,业务重心从自动驾驶切换至大模型。OKR调整显示移动生态、大模型、广告收入等方面的承诺型与进取型目标,彰显百度对AI战略的强烈重视。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8500-30619211.html
要点解析:
-
12月7日,北京联想总部举办首届AI PC产业创新论坛,发布首份《AI PC产业(中国)白皮书》。白皮书定义了AI PC为“个人AI助理”,代表PC行业即将迎来两大特征的时代:产品由工具向个人AI助理转变,PC产业生态发生颠覆性变革。
-
AI PC整合混合AI算力单元,可本地运行“个人大模型”创建个性化知识库。硬件不再是冷冰冰的设备,而是个性化助手,成为用户的第二大脑。在AI PC生态中,个人智能体成为第一入口,准确理解用户指令,跨应用进行调度,预示着传统PC产业将以人为本的需求做出改变。
-
IDC预测,中国PC市场将因AI PC的到来在未来5年中保持稳定增长。多家终端厂商的AI PC产品有望在近年相继落地,联想展示的离线运行大模型的AI PC产品预计将于2024年上市,标志着中国AI PC产业元年的到来。
原文链接:http://www.qbitai.com/?p=105111
要点解析:
-
随着大语言模型的快速发展,英特尔面临着数据中心市场需求的巨大变化。陈葆立表示,英特尔将其处理为系统工程,注重推广面向开发者的完整体验。至强可扩展处理器被视为全能CPU,能够满足各种工作负载,包括AI和大模型推理。
-
英特尔关注整个硬件和软件生态的发展,希望避免算力增加而其他组件跟不上的不平衡局面。公司密切与互联网客户合作,向生态公司提供新技术产品,如第四代至强可扩展处理器,用于简单的AI推理工作,取得良好成绩。
-
在推动系统工程的过程中,英特尔通过与中国市场的合作,特别强调中国生态的庞大性为提供特殊机会。公司致力于绿色数据中心技术的推动,包括液冷方案和智能调度,以满足不断增长的数据中心需求。
原文链接:https://www.pingwest.com/a/290859
要点解析:
-
AI已深度融入日常工作,尤其在Google产品中展现出令人惊叹的应用。从早期搜索引擎的拼写校正到2023年的生成式搜索体验,AI逐步改变着我们获取信息的方式。Gmail通过智能回复、智能撰写等功能提高电子邮件效率,而Google Docs更引入了AI语法建议和自动生成摘要,使文档编辑更加智能。Google Meet通过背景虚化、降噪等AI功能改善在线会议体验,并推出Duet AI以协助文档创作、幻灯片设计等。
-
LinkedIn自2007年起运用AI技术,通过"People You May Know"等功能建立了强大的职业社交网络。近期,LinkedIn通过AI为付费用户提供个性化建议,涵盖模拟面试、调整个人资料等方面。Microsoft自2016年开始将AI整合到Office套件中,包括PowerPoint、Word、Outlook、Excel和Teams等工具。这些工具通过AI功能提高了文档编辑、邮件管理、数据分析和在线会议的效率。
-
Microsoft的Copilot是一项最新的生成式AI工具,将在Microsoft 365中推出,可通过语音指令进行演示设计、数据分析等任务,进一步简化工作流程。这些例子突显了AI在提升工作效率和用户体验方面的巨大潜力,将在未来继续发挥重要作用。
原文链接:https://mashable.com/article/how-ai-has-been-enhancing-your-work-life-for-years
要点解析:
-
本周莱迪思半导体在开发者大会上发布了多款新产品,包括 Avant-G 和 Avant-X FPGA 系列,适用于通用设计和高级互连。新一代中端 FPGA 在通信、计算、工业和汽车市场表现出高效率、快速连接和优化的算力。
-
Avant-G 通用 FPGA 提供灵活的接口桥接、优化计算,满足系统可扩展性需求。而 Avant-X 高级互连 FPGA 实现高带宽和安全性,提供最高 1 T/s 的总系统带宽,带 PCIe Gen 4 控制器和安全引擎。
-
莱迪思还更新了解决方案集合,包括 sensAI(用于AI)、mVision(用于嵌入式视觉)、Sentry(实现安全功能)和Automate(用于自动化工厂)。这些更新加强了性能、安全功能,并扩展了行业标准,为客户提供更多定制选择。
原文链接:https://www.jiqizhixin.com/articles/2023-12-08-13
要点解析:
-
英国竞争与市场管理局(CMA)正考虑对微软与OpenAI的合作进行调查,以确定是否导致了受到反垄断法约束的“控制收购”。监管机构表示,它正在考虑“最近的发展”,毫无疑问是指微软在其中扮演重要角色的Sam Altman首席执行官被解雇的戏剧性事件。
-
CMA表示:“CMA现在发布ITC,以确定微软/OpenAI合作,包括最近的发展,是否导致了相关的合并情况,以及如果是这样,对竞争的潜在影响。”监管机构将审查该合作是否导致对另一实体拥有实质性影响、事实控制或超过50%的表决权。
-
监管机构指出,这种“密切而多方面的”合作包括微软数十亿美元的投资、技术开发合作和云服务。它补充说,两家公司在金融及相关市场都有重要业务,这意味着它们的业务往来直接影响投资者。此外,微软最近参与了与OpenAI治理有关的事务。
原文链接:http://www.fromgeek.com/internet/50-617021.html
要点解析:
-
NewsGPT.ai再次引领创新潮流。在成功推出全球首个24/7由AI生成的新闻频道后,NewsGPT.ai创新团队推出了一项宏伟的项目——全球首个“新闻预测”。类比于天气预报的演进,这个大胆的计划利用预测科学的力量,旨在提供“明天的新闻,今天”。
-
与1961年天气预报首次亮相类似,NewsGPT.ai在这一开创性冒险中将深度学习与应用数学相结合。首次预测将于12月8日星期五播出,通过报告尚未进行的周日足球比赛结果,采用独特的方法。NewsGPT的CEO Alan Levy强调,此阶段重点在方法论而非准确性。目标是探索深度学习AI和新闻预测的交叉点。
-
NewsGPT.ai采用开创性的方法,通过每一次迭代对AI模型进行精细调整和适应。该团队由MIT数学家和剑桥机器学习专家组成,渴望将预测范围扩展到体育结果以外的领域,包括市场动态、奥斯卡获奖者,甚至选举结果。公司的最终目标是向观众呈现“相当准确的明天新闻的新闻预测”,Levy表示。
要点解析:
-
联想集团在首届AI PC产业创新论坛上宣布“联想AI PC先锋行动”,招募AI生态开发者和AI内容创作者。王传东表示2024年将成为中国AI PC元年,联想将围绕先锋行动展开一系列主题活动,加速推进AI PC的落地。
-
2023年是AI技术迅速发展的一年,大模型在社会生产和生活中广泛应用。由于人们对数据安全和隐私的担忧,个人大模型崭露头角。安全、高效、个性化的个人大模型将成为每个人的专属“AI”助理,而PC是承载个人大模型的理想平台,将AI的能力带给每个人。
-
AI与PC的结合将形成新型混合体,即AI PC,不仅带来革命性用户体验,还将改变产业生态,以人为本,终端主导,AI原生。联想作为全球PC产业龙头,积极布局AI PC产品,推动AI PC产业生态共荣。
原文链接:http://www.fromgeek.com/ai/617022.html
要点解析:
-
AI领域的顶级科技公司对于生成式人工智能的应用有不同看法,但它们一致认为:在未来十年,所有企业都将采用这项技术。
-
亚当·戈德伯格(OpenAI ChatGPT企业团队成员)在纽约AI峰会上表示,在未来两到三年,组织将大规模调整业务流程,采用生成式AI,对各类企业产生实质性影响。
-
人工智能领域的领导者们预测未来的发展趋势,包括生成模型变得更小、更高效、性能更优越,为各行业提供更多定制模型,并在大规模语言模型的组合使用上持续增加。
要点解析:
-
ChatGPT概述: 由OpenAI公司创建的ChatGPT(生成预训练变换器)是一个能够进行对话的人工智能聊天机器人。它使用自然语言处理,能理解问题和请求,并生成类似人类的回应。大多数用户使用的免费版本利用了名为GPT-3.5的底层AI模型。更先进的版本,如最近宣布的GPT-4,构建在GPT-3.5的基础上,拥有更强大的功能。
-
Gemini AI概述: Gemini是Google的新一代人工智能模型系列,专注于自然语言和多模态理解,即处理和链接文本、图像、音频、视频等多种数据输入。它有三个主要版本,分别是Gemini Ultra(最大最先进的模型)、Gemini Pro(专注于理解和响应文本请求,已集成到Google的Bard聊天机器人中)、Gemini Nano(在智能手机和其他消费者设备上高效运行的较小模型)。
-
性能对比: Google声称Gemini Ultra在30个学术基准测试中超过了GPT-4,OpenAI迄今为止最先进的AI模型。这包括推理、数学和编码等类别。Gemini在多个性能测试领域取得了顶级成绩,包括通用语言理解、推理能力、阅读理解、数学能力、代码生成等。Gemini模型还具备处理图像、视频和语音等多种数据类型的能力。
原文链接:https://openaimaster.com/?p=28201
要点解析:
-
Google于2023年12月宣布的人工智能系统Gemini引起了轰动。Gemini具有总结音频录音和进行自然对话等能力,许多人渴望获取这一有前景的技术。然而,Gemini目前对公众的可用性仍然有限。
-
Gemini是Google最新的大型语言模型,由其AI子公司DeepMind开发,旨在为Google产品(如Bard聊天机器人和Pixel手机)提供更直观和有帮助的人工智能。
-
Gemini的关键能力包括总结Pixel手机上的音频录音、为消息应用提供智能回复、在Bard中进行更自然的对话、跨文本、图像和视频进行多任务处理,以及辅助数学、物理等学科。Gemini通过推理和事实准确性方面的特殊训练,缓解了AI常见问题,如幻觉。
原文链接:https://openaimaster.com/?p=28193
要点解析:
-
近期,埃隆·马斯克的人工智能公司 xAI 因其筹资活动而成为关注焦点。该公司向美国证券监管机构申报,计划通过股权发行筹集 10 亿美元。然而,马斯克在一份矛盾的声明中表示,xAI 目前并未寻求资金。这一矛盾引发了有关公司财务策略的猜测,并与 OpenAI 和 Anthropic 等科技巨头进行比较。
-
xAI 寻求 10 亿美元股权发行的争议举动引发了关于公司财务策略的疑问。根据提交给证券交易委员会的文件,xAI 已经筹集到 1.347 亿美元的股权融资。尽管有这些数字,但埃隆·马斯克在回应 Deepwater Asset Management 的 Gene Munster 发布的帖子时否认了任何正在进行的筹资活动。
-
马斯克对 Munster 的帖子作出简短回应,明确表示:“我们目前没有筹集资金。”然而,Munster 的帖子暗示了相反的情况,暗示马斯克的举动是与 OpenAI 和 Anthropic 等行业巨头竞争的战略动作。这些矛盾的声明造成了不确定性,使行业观察者对 xAI 财务举措背后的真正意图产生疑问。
原文链接:https://www.analyticsvidhya.com/blog/2023/12/elon-musks-xai-firm-faces-speculation-over-funding/
要点解析:
-
埃隆·马斯克旗下xAI公司最新推出AI助手Grok,向美国X Premium +订阅者正式开放。用户每月16美元或每年168美元可订阅。Grok与ChatGPT、Bard、Bing Chat相比,其最大特点是具备幽默感。马斯克透露Grok使用数十亿个公开数据点进行训练,同时强调其实时访问X平台的巨大优势。
-
Grok的推出引发关注,成为Elon Musk人工智能领域的新动向。通过对比其他AI助手,Grok的独特之处在于它的幽默感,这使得与用户的互动更加生动有趣。同时,Grok利用数十亿个公开数据点进行训练,为其提供了强大的学习基础,而其实时访问X平台的特性也使其在生成式人工智能领域占据优势。
-
马斯克对Grok的强调表明xAI在人工智能助手领域的野心。Grok的训练数据源自公开数据点,尽管具体数据未透露,但这一举措使Grok在实用性和创新性上都具备了竞争优势。Grok的开放订阅意味着用户可以更深度地体验其功能,也为xAI在人工智能市场上的地位提供了新的机会。
原文链接:https://www.ithome.com/0/738/063.htm
要点解析:
-
2023年,大模型领域迎来关键时刻。科大讯飞通过硬件,将大模型能力与办公硬件相结合,创新性地探索了大模型商业化路径。然而,硬件卖软件的逻辑需谨慎验证,科大讯飞是否能持续落地仍存挑战。
-
在大模型应用商业化中,数据积累并非唯一矛盾。科大讯飞以硬件为触达手段,借助大模型价值释放,旨在完成业务转型。然而,硬件赛道面临着激烈竞争和市场成熟后的内卷风险,科大讯飞需在规模化与创新之间取得平衡。
-
为了实现自我造血,科大讯飞将硬件作为大模型的触达媒介,力图在C端市场站稳脚跟。然而,如何在办公赛道中进一步规模化,以及在细分市场竞争中保持领先地位,是科大讯飞亟待解决的问题。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8110-30619212.html
要点解析:
-
2023年12月6日,Google Gemini AI正式发布,标志着其人工智能领域的重要里程碑,将Gemini AI的强大功能引入各种应用和用户。
-
发布详情如下:
-
12月6日:Gemini Lite版本公开发布,为Gmail等Google产品提供建议性消息功能。Bard聊天机器人通过Gemini技术升级,在170个国家(不包括英国和欧洲)首次推出。
-
12月13日:Gemini Pro版本通过Google Cloud Platform(GCP)API向开发者和企业客户开放。Gemini API向开发者开放,以将Gemini集成到其应用程序中。
-
-
Gemini目前通过与Google Bard和Google Pixel 8的集成提供,将逐步融入其他Google服务。开发者和企业客户将能够通过Gemini API在Google的AI Studio和Google Cloud Vertex AI中访问Gemini Pro,从2023年12月13日开始。由于处理非英语提示的问题,Gemini Ultra的推出推迟到2024年初,但Gemini预计将在计算能力方面大大胜过OpenAI的GPT-4。
-
Gemini模型变体包括Gemini Base(用于移动设备)、Gemini Lite(平衡性能和效率)、Gemini Pro(用于图像生成、代码生成和复杂推理)。
-
关键功能和能力包括卓越性能、可扩展性和灵活性、多模态处理、文本生成、翻译、问答、代码生成、图像生成、音频生成、视频生成。
原文链接:https://openaimaster.com/?p=28204
要点解析:
-
谷歌推出Gemini,是一款新的大型语言模型,分为Gemini Nano、Gemini Pro和Gemini Ultra三个版本。Gemini Pro已经应用于Bard,并将支持Google AI服务。Gemini被设计为本能的多模态,从一开始就在不同模态上进行预训练,并通过额外的多模态数据进行微调,使其在理解和推理各种输入方面优于现有多模态模型。
-
谷歌进行了与GPT-4的全面对比分析,通过32个基准测试,Gemini在30个测试中明显领先。Gemini在文本和多模态基准测试中展现出卓越表现,而其本能的多模态能力被强调为在各个领域达到最先进水平的关键区别。
-
尽管Gemini被认为在现有技术上取得了显著进展,但也有人对其提出质疑,认为其创新不足。Gemini的推出引发了对于AI领域的关注,值得关注的是,此举将如何影响OpenAI的发展方向,引发了业界的一场新一轮竞争。
原文链接:https://ediscoverytoday.com/?p=17655
要点解析:
-
作为喜欢健康或商业主题播客的爱好者,时间不够成为了难题。为了解决这个问题,我利用OpenAI模型、LangChain和Streamlit开发了一个应用程序,能够精确提供我所关心的播客节目摘要。通过粘贴YouTube播客链接,我不仅能够快速获取摘要,还可以提出特定问题获得即时答案,充分满足我对播客内容的定制需求。
-
RAG(Retrieval-Augmented Generation)是一种结合了类似GPT-4的文本生成和信息检索功能的方法。它能够根据特定数据(如播客的文字记录)提供准确、上下文相关的信息。RAG的工作原理是将数据分割成小片段,进行嵌入处理,然后存储在向量数据库中。当提出查询时,模型匹配问题与这些数据片段,选择最相关的文本输入大型语言模型,从而生成精确的答案。
-
应用程序的工作原理非常简单,用户只需在Streamlit界面粘贴YouTube播客的链接,输入OpenAI密钥,即可迅速获得播客摘要。代码分为三个主要部分:从YouTube获取数据,生成摘要与回答,以及Streamlit前端显示。通过这款应用,用户可以更轻松地掌握播客内容,提出问题,获取所需信息。
原文链接:https://juejin.cn/post/7309921579437670438
要点解析:
-
Bigjpg利用深度学习算法,可在不损失质量的情况下放大照片,使JPG图像的尺寸翻倍或翻四倍,并显著提高分辨率。该免费在线工具操作简便,任何人都能轻松实现惊人的图像增强,无论是恢复颗粒感的老照片,还是为大幅面打印准备图像。
-
在Bigjpg的AI操作中,用户只需访问Bigjpg.com,选择或拖放图像,选择图像类型(照片或动漫)、缩放比例(2x或4x)以及降噪水平(低/中/高),然后等待AI完成放大和增强。最后,用户可以点击下载按钮保存高分辨率的作品。
-
为获得最佳效果,建议尝试不同的设置,逐步放大图像,上传尽可能大的原始版本,且最好使用JPG格式。此外,Bigjpg提供付费计划,解锁更多专业品质的功能,包括更高的缩放比例、批量处理、更快速度、更高分辨率限制以及对RAW照片的支持。
原文链接:https://openaimaster.com/?p=28163
要点解析:
-
Meta推出Imagine with Meta AI,基于Emu图像生成模型,通过文本描述创造独特图片。用户简要描述即可生成高分辨率图像,无需技术技能。
-
Imagine具有无障碍使用、快速生成、原创性和免费等优势,适用于设计构思、营销广告、演示报告、数字内容创作等各领域。
-
技术上,Imagine依赖大型AI模型、生成对抗网络(GANs)和扩散模型,但在用户界面上简化了复杂性,使多年投入的生成AI技术变得易用。
原文链接:https://openaimaster.com/?p=28192
要点解析:
-
Meta昨日推出Purple Llama AI检测套件,旨在规范自家Llama语言模型及其他AI模型。套件提供CyberSec Eval评估工具和Llama Guard安全分类器,可量化大模型网络安全风险、评估代码漏洞,并防止黑客入侵相关模型。
-
Purple Llama套件是Meta在攻击和防御策略中的一部分,结合“紫队概念”评估和缓解AI模型潜在威胁。此外,套件将与微软、AMD、亚马逊、谷歌、英特尔、英伟达等公司合作,整合进行业模型评估基准。
-
Meta承诺持续改进Purple Llama套件,检测AI模型的安全性,为开发者提供更多工具,确保生成式AI模型和应用程序的负责任部署。
原文链接:https://www.ithome.com/0/738/032.htm
要点解析:
-
谷歌CEO发布Gemini,强调其原生多模态结构,实现文本、图像、视频、音频和代码的无缝推理。Gemini与ChatGPT不同,从一开始就融合多模态能力,使学习更像人类,可迅速、丝滑地处理多种信息类型。
-
Gemini性能强悍,分为Ultra、Pro、Nano三种版本,其中Ultra在大语言模型研究中表现卓越,甚至在MMLU任务上超越人类专家水平。Gemini具备强大的多模态处理能力,演示视频显示其实时互动,然而有争议指出可能使用了“障眼法”。
-
AI大模型逐渐进入多模态阶段,Gemini展现原生多模态探索。其技术探索符合互联网媒介形式的演变,适应信息时代主流趋势,使AI模型更自然地与人类和世界交互。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8500-30619223.html
要点解析:
-
2024年即将到来,是时候思考明年的目标和实现方式了。如果提高工作效率在计划中,许多人工智能产品可以帮助简化流程,从管理日程到会议记录转录再到实时语言翻译,都能成为您工作日常中不可或缺的助手。
-
会议处理方式因AI辅助产品而改变。不再需要手动记录笔记或通过电子邮件分享会议演示文稿,AI使我们更容易专注于讨论。它可以在会议进行时转录,并包含屏幕截图,使讨论时您知道自己在看什么。
-
AI助手也是工作的得力助手,能够帮助管理日程、自动化任务,并提供即时信息。苹果、谷歌、三星等产品集成了先进的语音助手,为工作提供了便利。想充分利用AI助手,可以考虑使用智能产品,如iPhone 15、Google Pixel 8、Apple Watch Series 9等。
原文链接:https://mashable.com/article/18-ai-productivity-apps-software-gadgets-for-2024
要点解析:
-
分析师郭明錤透露,苹果计划对iPhone 16的麦克风进行重大升级,以改善新的AI增强Siri体验。加强Siri的硬件和软件功能将是推广人工智能内容的关键。苹果雄心勃勃,将大语言模型(LLM)集成到Siri中,关键在于改进语音输入处理。
-
为此,苹果将进行一次重大的麦克风升级,提高信噪比,这对于改善Siri体验至关重要。新麦克风还将具有更好的耐水性,为用户提供更稳定和可靠的语音输入环境。
-
升级的麦克风进一步证实了苹果计划将增强的Siri功能作为iPhone 16的关键卖点。iOS 18预计将推出基于LLM的新Siri功能,表明苹果正在不断整合生成性人工智能和LLM,并调整Siri团队以实现更高水平的人工智能集成。
原文链接:https://www.feng.com/post/13779651
要点解析:
-
AI浏览器正成为网络浏览的新趋势。微软Edge引入Copilot,基于OpenAI的GPT-4模型,提供聊天、创作和见解功能,界面 polished,信息准确。Google Chrome通过Search Generative Experience试验引入生成AI,目前免费但实验将于12月结束。Opera的Aria整合了OpenAI的GPT-3.5,界面slick,但与网页的互动有限。Brave的Leo注重隐私,提供生成摘要、问答和对话,但功能相对简单。Arc以独特功能代替全面对话,如Cmd+F问问题,Shift悬停链接显示摘要。SigmaOS推出Airis助手,支持摘要、问答和文本改写。
-
这些AI浏览器各有特色,微软Edge功能丰富,Google Chrome实验中,Opera界面优美但互动有限,Brave注重隐私但功能简单,Arc独特功能明显,SigmaOS的Airis在特定情境下很有用。AI浏览器标志着浏览体验的创新,各家尝试不同方式整合生成AI,为用户提供更智能、个性化的浏览服务。
-
总体而言,AI浏览器的崛起展示了人工智能在网络浏览中的应用前景。它们通过整合生成AI,提供更智能的摘要、问答和对话功能,丰富了用户在浏览器中的体验。微软Edge和Arc在功能上更为突出,而各家浏览器都在努力创新,推动着AI在浏览领域的发展。
原文链接:https://www.fastcompany.com/90993998/how-a-wave-of-ai-web-browsers-are-doing-what-chrome-doesnt
要点解析:
-
2023年12月8日,Meta宣布在Facebook、Instagram、Messenger和WhatsApp等热门平台上推出20多项创新的生成式AI增强功能,旨在转变搜索能力、社交发现、广告和商业沟通。
-
Meta AI是这些发展的驱动力,正在显着演变,引入新功能和幕后创新能力,以丰富消息体验。其中引人注目的是Meta AI中的“Invisible Watermarking”,旨在提高AI生成图像的透明度和可追溯性。
-
Meta AI还通过Facebook和Instagram提升了用户体验,包括提供AI生成的帖子评论建议、社区聊天主题建议、搜索结果和商店中增强的产品描述。此外,Meta AI的整合使得日常体验更加丰富,从制作独特的生日祝福到编辑Feed帖子,都变得更加便捷。
原文链接:https://www.greataiprompts.com/?p=5369
要点解析:
-
在大模型+教育领域,2023年的发展呈现出四个主要机遇。首先,大模型与专属硬件的结合成为趋势,提高学习机等教育硬件的使用体验,为家长提供更流畅的选择。科大讯飞的星火认知大模型和学而思的布局都突显了这一趋势。
-
其次,口语练习是大模型+教育中的明星能力。大模型在口语练习方面展现出准确的发音和语感,为学生提供更好的练习体验。子曰大模型、Hi Echo等应用专注于口语练习,推动了这一领域的发展。
-
第三,个性化AI辅导是大模型+教育的潜在亮点。通过学习者与AI对话,大模型能够发现知识盲区和错误,提供针对性的解答和测试题目,实现一定程度上的个性化教育。学而思的AI对话学功能即是这一方向的探索。
原文链接:https://www.ofweek.com/ai/2023-12/ART-201700-8500-30619222.html
要点解析:
-
全球最大的开源大模型社区HuggingFace最新发布的开源大模型排行榜显示,阿里云通义千问力压Llama2等国内外开源大模型,登顶榜首。该排行榜是目前大模型领域最具权威性的榜单,收录了全球上百个开源大模型,测试维度涵盖阅读理解、逻辑推理、数学计算、事实问答等六大评测。通义千问(Qwen-72B)以73.6的综合得分脱颖而出,位列所有预训练模型之首。
-
12月初,阿里云正式开源了720亿参数的大语言模型通义千问Qwen-72B。在10个权威基准测评中,Qwen-72B创下开源模型最优成绩,成为业界最强开源大模型。其性能超越开源标杆Llama 2-70B和大部分商用闭源模型,适配企业级和科研级的高性能应用。
-
阿里云是国内最早开源自研大模型的科技企业,今年8月以来陆续开源了Qwen-7B、Qwen-14B、Qwen-1.8B以及视觉理解模型Qwen-VL、音频理解大模型Qwen-Audio,率先实现了大模型的“全尺寸、全模态”开源。这些模型在HuggingFace和Github大模型榜单上获得认可,广受中小企业和个人开发者欢迎,累计下载量超过150万,催生了150多款新模型和新应用。
原文链接:https://www.jiqizhixin.com/articles/2023-12-08-11
要点解析:
-
Pika Labs 1.0推出了一系列令人惊叹的新功能,旨在释放创造力,使任何人都能成为视频故事大师。其中,生成性填充编辑工具允许通过文本提示无缝替换或修改现有视频场景,从而摆脱传统拍摄的限制,实现对视频中世界的动态操作。
-
AI文本到视频生成是另一大亮点,用户只需键入场景、角色或故事的文本描述,Pika先进的机器学习能力将文字转化为精美渲染的视频。此外,Pika 1.0在复制人体解剖和真实性方面取得了巨大进展,能够生成具有逼真肌肉、皮肤、头发和服装的完全动画人物。
-
通过引入多模态视频合成,Pika 1.0让创作者可以从文本、图像、视频片段甚至现有镜头中的对象等多种输入模式中合成美丽的视频。这一革命性的AI工具使创作者能够以前所未有的创意自由构建复杂场景,为视频创作开辟了新的可能性。
原文链接:https://openaimaster.com/?p=28185
要点解析:
-
微软推出无障碍应用Seeing AI,旨在通过AI向视障人士描述周围事物,提供声音提示。
-
应用利用AI辨识手机摄像头画面,描述人类、文字、物体,扫描产品条码获取详细信息。
-
Android及iOS版本整合生成式AI功能,提供更丰富描述,支持18种语言,计划明年添加中文支持。
原文链接:https://www.ithome.com/0/738/025.htm
要点解析:
-
谷歌于 I/O 2023 大会发布的 Notebook LM 是一款AI笔记应用,采用 Gemini Pro 模型升级,提供更快速的文件摘要生成和问题解答。该应用不仅依赖单一 Gemini Pro 模型,还整合了 PaLM 2 等多模型,确保用户获得高效响应。
-
Notebook LM 作为实验性产品,强调在用户使用时需核查信息。它展示原文件引文部分,简化事实核查流程。更新后的版本扩大了应用范围,用户可以注册使用,充分利用 Gemini Pro 模型基于上下文生成见解,提高用户体验。
-
虽然谷歌强调 Notebook LM 仍在实验阶段,但通过 Gemini Pro 模型等的不断更新,该应用在提升文件处理速度和用户交互方面取得显著进展,为AI笔记应用领域带来新的可能性。
原文链接:https://www.ithome.com/0/738/070.htm
要点解析:
-
人机交互设计正迎来人工智能的革命,AI引入了一种新的交互范式,即基于意图的范式。传统用户界面基于命令和控制模式,而AI使用户能够更自然地告诉计算机他们想要什么,而不是如何做。
-
这种意图驱动的交互范式还处于早期阶段,但有潜力彻底改变我们与计算机交互的方式。例如,想象一下能够告诉计算机:“我想订一张去巴黎的飞机票”,然后它会自动找到最佳航班并为您预订。或者想象一下说:“我需要帮助报税”,计算机会逐步引导您完成整个过程。这为设计“终极”用户体验打开了全新的可能性。
-
意图驱动的交互也面临挑战。现代语言学习模型在理解自然语言方面表现出色,但在用户体验中,目前的基于聊天的交互风格存在写出问题的高认知负担。尽管存在挑战,但设计师已经在探索如何最好地实现这种新范式。
原文链接:https://hackernoon.com/ai-workflows-and-modern-application-design-patterns?source=rss
要点解析:
-
人工智能(AI)在我们迅速发展的数字世界中不仅仅是一个时髦词汇,更是一股革命性的力量,正在重新塑造我们与技术互动的方式。
-
自ChatGPT首次推出以来,AI领域每周都在取得重大进展。就在一周前,我接触到了OpenAI最新推出的GPTs(个性化ChatGPT版本),这是在最新的OpenAI DevDay上展示的。
-
最近推出的由OpenAI推出的可定制的预训练变压器(GPTs)标志着人工智能在走向以用户为中心的设计方面迈出的重要一步。这些发展使得创建个性化的ChatGPT实例不再是一项复杂的任务,现在任何人都可以轻松访问,为定制的AI交互打开了无限可能。升级后,ChatGPT具有新的外观,集成了Web浏览、DALL-E和代码解释器等功能,全部归属于GPT-4的大伞下。唯一遗漏的功能是插件,它们仍然是另外的选择。
原文链接:https://www.kdnuggets.com/personalized-ai-made-simple-your-no-code-guide-to-adapting-gpts
要点解析:
-
人们在过去的一年里被令人困惑的人工智能术语弄得晕头转向吗?无数融入人工智能的产品和服务已经面世,提供了一系列很难辨别的功能,常常包裹在难以理解的术语中。通过这个方便的词汇表,你将了解到人工智能与AGI的区别,当ChatGPT“产生幻觉”时到底发生了什么,以及当你听到GPT-4被描述为“使用深度神经网络构建的LLM转换器模型”时的含义。让我们深入了解。
-
代理
--
在AI的背景下,代理是能够自主执行某种任务的模型或软件程序。代理的例子包括控制温度和照明的智能家居设备,机器人吸尘器和无人驾驶汽车中的传感器,以及像ChatGPT这样学习并响应用户提示的聊天机器人。执行复杂任务的自主代理通常被认为是AI可能迈出的下一个飞跃的示例。
-
AGI(人工通用智能)
AGI是具有人类完全智力能力的一种程序或模型,即通用智能。AGI具有推理、常识、抽象知识和创造力等能力。基本上,它能够在没有人类指导的情况下自主执行任务。真正的AGI尚不存在,但专家们认为在不久的将来可能会实现(尽管对时间的看法有所不同)。OpenAI、DeepMind和Anthropic等公司致力于尝试创建AGI。
原文链接:https://mashable.com/article/ai-definitions-artificial-intelligence-glossary-terms
要点解析:
-
本文介绍了成人行业中新兴的数字克隆技术,通过对成人演员如Riley Reid等进行训练,创造了能够与用户进行对话的聊天机器人。这些数字克隆不仅限于性爱对话,还涉及到日常话题、个人生活和职业经历等。不同的平台推出了多位成人演员的数字克隆,为用户提供更加个性化和深入的交流体验。
-
文章详细介绍了数字克隆的制作过程,从使用开源大型语言模型(如Meta的LLaMa)对演员进行初步训练,到演员回答数百个关于个人生活的问题,再到调整和细化对话内容,形成逐渐完善的数字版本。这种技术的发展也呈现出将来可能实现更多形式的创新,包括图像、视频等内容的数字克隆。
-
文章指出,这种数字克隆对于成人行业从业者有诸多好处,不仅节省时间,还能够帮助他们与观众建立更深层次的连接。数字克隆成为一种留存和延续性的方式,当演员不再能够或不愿意创作新内容时,仍能够通过数字克隆持续赚取收入,为成人行业带来新的商业模式。