(資料圖)
IT之家 1 月 1 日消息,北京時間今天晚間,據(jù) The Information 報道,OpenAI 正在全面強化自身的音頻人工智能能力,為未來推出一款以語音為核心的個人 AI 設(shè)備鋪路。多名知情人士透露,這款設(shè)備將以聽覺交互為主要形式,而非依賴屏幕。
目前,ChatGPT 的語音功能與文本回答背后所使用的模型并不相同。OpenAI 內(nèi)部研究人員認為,現(xiàn)有音頻模型在準(zhǔn)確性和響應(yīng)速度上明顯落后,促使公司在過去兩個月內(nèi)整合工程、產(chǎn)品和研究力量,集中攻克音頻模型短板。
這一調(diào)整直接指向 OpenAI 的硬件目標(biāo) —— 打造一款可通過自然語音指令操作的消費級設(shè)備。此前報道稱,首款產(chǎn)品至少還需要一年時間才能面世。
隨著新架構(gòu)的引入,音頻模型已能生成更自然、更富情感的語音回應(yīng),并具備與人類同時發(fā)聲、應(yīng)對打斷的能力。OpenAI 計劃在 2026 年第一季度正式發(fā)布該模型。
在硬件形態(tài)上,OpenAI 與谷歌、亞馬遜、Meta 和蘋果的判斷相似:現(xiàn)有主流設(shè)備并非為未來的 AI 交互而生。OpenAI 團隊希望用戶通過“說話”而非“看屏幕”與設(shè)備互動,認為語音才是最貼近人類交流本能的方式。
與 OpenAI 合作推進硬件項目的喬尼?艾維也強調(diào),無屏幕設(shè)計不僅更自然,還有助于避免用戶沉迷。他認為,新一代設(shè)備應(yīng)當(dāng)糾正以往消費電子產(chǎn)品帶來的負面影響,并為此承擔(dān)責(zé)任。
不過,OpenAI 目前仍面臨現(xiàn)實挑戰(zhàn)。內(nèi)部人士指出,不少 ChatGPT 用戶并未習(xí)慣使用語音功能,這種情況不僅因為音頻模型效果不彰,也與功能認知不足有關(guān)。在推出音頻優(yōu)先的 AI 設(shè)備之前,OpenAI 必須先改變用戶的使用習(xí)慣。
在組織層面,OpenAI 已組建專門團隊推進音頻 AI 戰(zhàn)略。來自 Character.AI 的語音研究員昆丹?庫馬爾負責(zé)整體方向,本?紐豪斯正在重構(gòu)面向音頻的底層架構(gòu),多模態(tài) ChatGPT 的產(chǎn)品經(jīng)理杰基?香農(nóng)也參與其中。
OpenAI 并不打算只推出一款設(shè)備,而是規(guī)劃了一條產(chǎn)品線,包括智能眼鏡和無屏幕智能音箱。公司內(nèi)部的設(shè)想是,這類設(shè)備將以“伴隨式助手”的形態(tài)存在,主動理解環(huán)境和用戶需求,并在獲得授權(quán)的情況下,通過音頻和視頻持續(xù)提供幫助。
為支撐這一長期布局,OpenAI 已在 2025 年初斥資近 65 億美元(IT之家注:現(xiàn)匯率約合 455.06 億元人民幣)收購喬尼?艾維聯(lián)合創(chuàng)辦的 io,并同步推進供應(yīng)鏈、工業(yè)設(shè)計與模型研發(fā)等多條工作線。
