精品人妻一区二区乱码_欧美涩爱一区二区_国产精品高清在线观看93_成人爽成人免费视频_国产欧美中文字幕_好硬好湿好爽好深视频_久久大香香蕉国产_少妇一级婬片免费放真人_全黄性高视频_色狠狠一区二区三区香蕉,国产片在线观看天堂av,国产亚洲欧美日韩在线一区二区三区 ,国产亚洲中文在线字幕

科技

多模態(tài)AI重新定義人機(jī)交互方式

2024/10/23 16:28 來源:科技日?qǐng)?bào) 閱讀:1.4萬

  未來的人工智能(AI)什么樣,?想象一下,,只需簡(jiǎn)單一個(gè)指令,,它們便能領(lǐng)悟并執(zhí)行復(fù)雜的任務(wù),;它們還能通過視覺捕捉用戶的表情和動(dòng)作,,判斷其情緒狀態(tài),。這不再是好萊塢科幻電影中的場(chǎng)景,,而是正逐步走進(jìn)現(xiàn)實(shí)的“多模態(tài)AI”,。

  據(jù)美國(guó)《福布斯》網(wǎng)站近日?qǐng)?bào)道,,元宇宙平臺(tái)公司,、OpenAI以及谷歌公司等巨頭,都推出了各自的多模態(tài)AI系統(tǒng),,正不遺余力地加大對(duì)此類系統(tǒng)的研發(fā)投資,,力求提高各種模態(tài)內(nèi)容輸出的精確度,從而改善AI與用戶的交互體驗(yàn),。

  多模態(tài)AI標(biāo)志著一種范式變革,。它將深刻改變很多行業(yè)的面貌,并重塑數(shù)字世界的格局,。

  賦予AI“多重感官”功能

  人類是如何了解世界的,?我們依賴視覺,、聽覺和觸覺等多種感官,從無數(shù)來源接收信息,。人腦將這些紛繁復(fù)雜的數(shù)據(jù)模式融合,,繪制出一幅生動(dòng)的現(xiàn)實(shí)“畫卷”。

  IBM公司官網(wǎng)這樣定義多模態(tài)AI:能集成和處理來自多種模態(tài)(數(shù)據(jù)類型)的機(jī)器學(xué)習(xí)模型,,這些模態(tài)包括文本,、圖像、音頻,、視頻等形式的輸入,。就像賦予AI一整套感官,使它能從多個(gè)角度感知并理解輸入的信息,。

  這種跨越不同模態(tài)理解和創(chuàng)建信息的能力,,超越此前側(cè)重于集成和處理特定數(shù)據(jù)源的單模態(tài)AI,贏得了各大科技巨頭的青睞,。

  在今年的移動(dòng)通信大會(huì)上,,高通公司將其開發(fā)的多模態(tài)大模型首次部署在安卓手機(jī)上。用戶無論是輸入照片,,還是語音等信息,,都能與AI助手順暢交流。例如,,用戶可以拍一張美食照片向AI助手提問:這些食材都是什么,?能做出什么菜?每道菜的熱量是多少,?AI助手能基于照片信息,,給出詳細(xì)的答案。

  今年5月,,OpenAI發(fā)布了多模態(tài)模型GPT-4o,,其支持文本、音頻和圖像的任意組合輸入和輸出,。隨后,,谷歌也于第二天推出了自己的最新多模態(tài)AI產(chǎn)品Gemini 1.5 Pro。

  9月25日,,元宇宙平臺(tái)公司發(fā)布了其最新的開源大語言模型Llama 3.2,。公司首席執(zhí)行官馬克·扎克伯格在主題演講中表示,這是該公司首個(gè)開源多模態(tài)模型,,可同時(shí)處理文本和視覺數(shù)據(jù),,標(biāo)志著AI在理解更復(fù)雜應(yīng)用場(chǎng)景方面取得了重大進(jìn)展。

  悄然推動(dòng)各領(lǐng)域變革

  多模態(tài)AI正悄然改變著多個(gè)領(lǐng)域的面貌。

  在醫(yī)療保健領(lǐng)域,,IBM旗下“沃森健康”正對(duì)病人的影像學(xué)數(shù)據(jù),、病歷文本和基因數(shù)據(jù)進(jìn)行綜合分析,幫助醫(yī)生更準(zhǔn)確地診斷疾病,,有力支持醫(yī)生為病人制訂個(gè)性化治療方案,。

  創(chuàng)意產(chǎn)業(yè)也正在經(jīng)歷一場(chǎng)變革。數(shù)字營(yíng)銷專家和電影制片人正借助這一技術(shù)打造定制內(nèi)容,。試想,,只需一個(gè)簡(jiǎn)單的提示或概念,AI系統(tǒng)就能編撰出引人入勝的劇本,,生成故事板(即一系列插圖排列在一起組成的可視化故事),、創(chuàng)作配樂,甚至制作出初步場(chǎng)景剪輯,。

  教育和培訓(xùn)領(lǐng)域也在多模態(tài)AI助力下向個(gè)性化學(xué)習(xí)邁進(jìn),。美國(guó)紐頓公司開發(fā)的自適應(yīng)學(xué)習(xí)平臺(tái)能利用多模態(tài)AI,深入分析學(xué)生的學(xué)習(xí)行為,、表情和語音,,實(shí)時(shí)調(diào)整教學(xué)內(nèi)容和難度。實(shí)驗(yàn)數(shù)據(jù)顯示,,這種方法能將學(xué)生的學(xué)習(xí)效率提高40%,。

  客戶服務(wù)也是多模態(tài)AI系統(tǒng)令人興奮的應(yīng)用之一。聊天機(jī)器人不僅能回應(yīng)文本查詢,,還能理解客戶的語調(diào),,分析客戶的面部表情,并用適當(dāng)?shù)恼Z言和可視化線索作出回應(yīng),。這種更接近人類的交流有望徹底改變企業(yè)與客戶的互動(dòng)方式。

  仍需克服技術(shù)倫理挑戰(zhàn)

  但多模態(tài)AI發(fā)展也面臨諸多挑戰(zhàn),。

  AI咨詢公司“隱空間”創(chuàng)始人亨瑞·艾德爾表示,,多模態(tài)AI的強(qiáng)大之處在于能夠整合多種數(shù)據(jù)類型。然而,,如何有效整合這些數(shù)據(jù)仍是一個(gè)技術(shù)難題,。

  此外,多模態(tài)AI模型在運(yùn)行過程中往往需要消耗大量算力資源,,這無疑增加了其應(yīng)用成本,。

  更值得注意的是,多模態(tài)數(shù)據(jù)包含更多個(gè)人信息,。當(dāng)多模態(tài)AI系統(tǒng)能輕松識(shí)別人臉,、聲音乃至情緒狀態(tài)時(shí),如何確保個(gè)人隱私得到尊重與保護(hù),?又該如何采取有效措施,,防止其被用于創(chuàng)建“深度偽造”或其他誤導(dǎo)性內(nèi)容,?這些都是值得深思的問題。(記者 劉 霞)

責(zé)任編輯:劉萌萌

社區(qū)文化網(wǎng)