我讓 AI 來處理我 24 小時(shí)的音頻信息——這會(huì)是未來嗎?

來源:CSDN
作者:鄭麗媛
時(shí)間:2022-11-21
2411
這幾年 AI 發(fā)展和進(jìn)化的速度,幾乎可以用三個(gè)字來形容:殺瘋了。

這幾年 AI 發(fā)展和進(jìn)化的速度,幾乎可以用三個(gè)字來形容:殺瘋了。

AI 下棋、AI 編程、AI 作畫、AI 寫小說、AI 預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)……當(dāng) AI 逐漸融入我們的生活,你是否設(shè)想過,我們的未來會(huì)如何發(fā)展?會(huì)像許多科幻電影和賽博朋克類小說中說的那樣,讓 AI 管理和安排我們的日常?

正如未來學(xué)家尼葛洛龐帝所說,“預(yù)測(cè)未來的最好方法,就是去創(chuàng)造未來”,最近國(guó)外一位小哥 RoberDam 便提前“體驗(yàn)”了一把他眼中的未來:“我 24 小時(shí)都用音頻記錄自己,然后用 AI 來處理這些信息——這會(huì)是未來嗎?”

微信圖片_20221121154248.jpg


恰好出現(xiàn)的 Whisper

說來有些好笑,RoberDam 會(huì)對(duì)這個(gè)測(cè)試提起興趣的原因之一,是 1TB 內(nèi)存手機(jī)的出現(xiàn):“迄今為止已經(jīng)有多種型號(hào)的智能手機(jī)都具有 1TB 的內(nèi)存,這能干什么呢?能全天候地記錄自己的音頻!”

恰好今年 9 月底,OpenAI 又發(fā)布了一個(gè)名為 Whisper 的語言 AI 模型,并聲稱它在英語語音識(shí)別方面的準(zhǔn)確性已接近人類水平——RoberDam 靈光一閃,齊活兒!

“當(dāng)然,這只是一個(gè)預(yù)測(cè)未來的實(shí)驗(yàn),就是想看看什么可能、什么不可能?!?/p>

首先,RoberDam 買了幾個(gè)麥克風(fēng)帶在身上,整天開著,記錄他一天說的話。計(jì)劃當(dāng)一天結(jié)束后,他就把這些音頻交由 OpenAI 的 Whisper 處理,轉(zhuǎn)化為文本文件,從中提取信息。

不過,畢竟每天說的話太多,RoberDam 認(rèn)為還是有必要畫個(gè)重點(diǎn)的。因此,他創(chuàng)建了一個(gè)初級(jí)的“數(shù)字助理”程序,將一些重要信息通過關(guān)鍵詞“Robert”和“End Robert”主動(dòng)讓其捕捉:“每次我說出‘Robert’這個(gè)詞時(shí),表明我之后所說的一切都是我對(duì)助手的命令,直到我再次說‘End Robert’,意味著命令結(jié)束。”

舉兩個(gè)例子:

  • 想讓“數(shù)字助理”記錄當(dāng)天的體重,RoberDam 只需大聲說:“Robert WEIGHT 60.1 end Robert。”

微信圖片_20221121154302.jpg

  • 想讓“數(shù)字助理”記錄當(dāng)天的睡眠時(shí)間,RoberDam 也只需說:“Robert SLEEP 7 hours 14 minutes end Robert?!?/p>

微信圖片_20221121154306.jpg

等一天結(jié)束,Whisper 將當(dāng)天的音頻處理并轉(zhuǎn)換為文本后,“數(shù)字助理”程序就會(huì)負(fù)責(zé)搜索命令的文本并提取關(guān)鍵詞之間的所有內(nèi)容。


足以確保 100% 的隱私,還等同于“模擬 API”

說到這里,可能有些人會(huì)覺得,何必如此麻煩搞個(gè)“數(shù)字助理”,直接用 Google 的“OK GOOGLE”和蘋果的“Siri”不香嗎?

以“OK GOOGLE”為例,RoberDam 總結(jié)了三點(diǎn)局限:

  • 命令受限:不夠了解“OK Google”可以交互式地做什么,對(duì)它的一些命令只會(huì)作為 Google 搜索返回。

  • 不夠隱私:你對(duì)“OK Google”說的命令和完整音頻文件都會(huì)一起保存在 Google 中,搜索歷史記錄就能查到。你不僅能聽到自己的聲音,旁邊人的對(duì)話可能也會(huì)被錄進(jìn)去。

  • 同步處理:當(dāng)你向 Google 發(fā)送命令時(shí),通常會(huì)有幾秒的延遲,可能用于搜索也可能在辨別你的命令,而這會(huì)分散你的注意力,讓你關(guān)注它的反饋,有時(shí)候這比你直接手動(dòng)操作還慢。

基于這三點(diǎn),RoberDam 自己創(chuàng)建的“數(shù)字助理”就很好地解決了這些問題:

  • 命令受限:命令由 RoberDam 自己決定,他知道“數(shù)字助理”能處理什么。

  • 不夠隱私:所有音頻只有 RoberDam 一人擁有,確保 100% 隱私。

  • 同步處理:它是異步處理的,所以 RoberDam 不用費(fèi)心盯著它有沒有及時(shí)響應(yīng),想到了就說出命令,一天結(jié)束后它會(huì)自己處理。

另外值得一提的是,這個(gè)“數(shù)字助理”某種程度上來說等同于一個(gè)“模擬 API”——一些電子設(shè)備原本只能與手機(jī)連接,但現(xiàn)在 RoberDam 通過將音頻交由“數(shù)字助理”處理,間接實(shí)現(xiàn)了多個(gè)設(shè)備之間的通信。


目前還存在一些弊端

總之,某一天 RoberDam 終于克服了羞恥心,時(shí)不時(shí)就對(duì)著麥克風(fēng)喊著:“Robert……end Robert”,最終他明確向“數(shù)字助理”說的所有信息都可以集中在日??刂泼姘逯校?/p>

微信圖片_20221121154317.jpg

不僅如此,RoberDam 表示,為了進(jìn)一步了解當(dāng)天的日程,還可以創(chuàng)建“我的日記”以生成當(dāng)天所做事情的摘要:

微信圖片_20221121154325.jpg

不過,RoberDam 也承認(rèn),這種 AI 處理方式還存在一些弊端。例如:現(xiàn)階段的“數(shù)字助理”并不會(huì)提醒他當(dāng)天必須要做的事情;由于是異步處理的,只有到晚上才知道那些命令有沒有被成功處理;還有在別人眼里,他的“自言自語”可能有點(diǎn)奇怪。

立即登錄,閱讀全文
原文鏈接:點(diǎn)擊前往 >
文章來源:CSDN
版權(quán)說明:本文內(nèi)容來自于CSDN,本站不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個(gè)人觀點(diǎn),不代表快出海對(duì)觀點(diǎn)贊同或支持。如有侵權(quán),請(qǐng)聯(lián)系管理員(zzx@kchuhai.com)刪除!
掃碼關(guān)注
獲取更多出海資訊的相關(guān)信息
優(yōu)質(zhì)服務(wù)商推薦
更多
掃碼登錄
打開掃一掃, 關(guān)注公眾號(hào)后即可登錄/注冊(cè)
加載中
二維碼已失效 請(qǐng)重試
刷新
賬號(hào)登錄/注冊(cè)
小程序
快出海小程序
公眾號(hào)
快出海公眾號(hào)
商務(wù)合作
商務(wù)合作
投稿采訪
投稿采訪
出海管家
出海管家