最近,一家AI聲學公司已經申請上市。這邊就來簡單理解一下AI聲學、語音辨識解決方案公司,intelliGo意騰科技。intelliGo意騰科技是2016年從晶片設計大廠,MediaTek聯發科,獨立出來的。
intelliGo意騰,為市場上利用 AI 技術進行聲學處理之先驅者。
公司由「晶片設計團隊」、「演算法團隊」及「聲學系統處理團隊」以算法及晶片設計為核心,利用邊緣裝置執行聲音數據之運算及語音辨識,為聲學處理領域提供 AI 應用的軟硬體全方位解決方案。為因應全球 LLM 及生成式 AI 的快速進展,意騰併購賽微科技,增加「語音辨識團隊」,持續加強研發能量。
intelliGo意騰主要產品可區分為 AI 聲學處理與語音辨識之 ASIC 產品以及提供 AI 智財授權暨技術服務產品,產品已供應給耳機(TWS 耳機及耳罩式耳機)、會議音箱、電腦螢幕麥克風、助輔聽器及無線對講機等知名廠商。
在AI 智財授權產品,公司已開發 15 項功能,其中 AI ULNR 上行降噪及 AIBF 波束成型指向收音已運用在北美知名品牌 TWS 耳機,且intelliGo意騰以 AI 智財授權產品的 AI 降噪算法協助客戶在通話品質的評測中取得 Athena Project 的 APO Partner 認證。
在2020年,公司完成第二代 AI 聲學演算法且移植至 Windows 作業系統,並逐步獲得國際一線廠商的認證與採用,使公司成為第一家成功將 AI 降噪軟體導入至個人電腦量產的廠商。
ASIC 產品方面意騰採用 AI 邊緣運算(應用特定積體電路 ASIC 與加速器讓系統應用提供最佳性能與功耗)audio 處理器晶片,其產出之高品質系列晶片在 CPU 能力與硬體加速器、執行大量並行計算、頻繁Memory存取下,對聲音處理的效能佳,已應用於知名品牌企業用會議音箱,此外高效能系列晶片亦達到由 Sony 所提出、日本音頻協會(Japan Audio Society, JAS)及消費電子協會(CEA)所制定之高品質音頻 Hi-Res Audio 的 認證標準。
ASIC 產品係於 2017 年推出全球首顆數位低功耗的 AI 語音處理晶片,2019 年將該晶片成功導入客戶的旗艦手機產品內,2022 年成功量產可雙向運行降噪(上行加下行)之 AI 高效能第二代語音處理器晶片,並獲國際一線廠商採用在旗艦無線降噪耳機中。
除在原有聲學處理及語音辨識的技術佈局外,公司積極投入終端生成式 AI 的技術開發、開發下一代晶片系列 (高算力、低延遲及更省電的能效比)、建立軟體 SDK 及最新 AI Transformer 模型的訓練優化運算平台。目前已投入本地端特定領域大型語言模型應用(Local Large Language Modes for Specific Application Domains)、語音機器人,擴充聲學處理的服務範疇。已著手規劃開發下一世代產品,並將應用領域延伸電玩遊戲機、語音機器人、醫療等產品。
因汽車產業也正面臨轉型的階段, 智慧車的問市,讓車載系統的功能複雜度更上一層,意騰已耕耘車用語音市場多年,目前已積極爭取 Tier 1 車廠的合作計劃。
以下為intelliGo意騰的產品和服務:
(1)AI 智財授權暨技術服務
AI 智財授權暨技術服務產品是 AI 聲學處理與語音辨識相關的類神經網路聲學演算法、模型和技術;包含語音辨識、audio分析、降噪處理、特定領域 LLM(大型語言模型)。
意騰所運用的 AI 技術包含:監督式學習(Supervised Learning)、自監督式學習(Self-Supervised Learning)、大語言基礎模型(Large Language Foundation Model)之調整與適應性訓練、Transformer 運算架構優化、混合運算精度、檢索增強生成(Retrieval Augmented Generation)及生成式 AI(Generative AI)等,讓意騰可以滿足各種 Edge 平台運算資源和能耗的需求,如 x86、ARM、DSP。
意騰利用近五億筆的噪音與純人聲音檔投入類神經網路模型並進行訓練,訓練完成後的演算法具有精準辨識人聲並消除噪音的功能,並可為具有中央處理器(Central Processing Unit, CPU)、繪圖處理器 (Graphic Processing Unit, GPU)、數位訊號處理器(Digital Signal Processor, DSP) 等具高運算力單元之客戶提供適合的 AI 智財授權暨技術服務產品。
同時,意騰也透過不同參數量的 AI 模型進行聲學演算法的延伸,配合客戶需求提供不同使用場景的最適解決方案,包含「AI 指向收音 (只收取特定方向的人聲並濾除該方向夾角內之噪音) 」及「AI 遠距拾音 (針對5公尺外的發話者聲音進行 AI 處理後,讓受話者認為發話者是緊貼麥克風講話) 」等算法,讓終端消費者在各種使用場景下均能享受乾淨且無干擾的聲音品質。
意騰在AI 智財授權暨技術服務產品優勢在於
(a)對於麥克風陣列(個數及配置)需求較小。
(b)相較傳統聲學演算法,在語音辨識、聲音增強及噪音消除方面,均有較佳的效能。
(c)產品多元具廣度,目前已成功整合開發 AI DLNR 下行降噪、Euphonic MIC 美聲麥 克風、DOV 人聲音源方向偵深技術、VPNR 聲紋降噪等軟體方案。
(2)ASIC
意騰為沒有高運算力單元,但需要全方位聲學處理解決方案之客戶提供高效能、低功耗之 ASIC 產品。
ASIC 產品是專為嵌入式應用設計之硬體,除已內建 RISC-V 微處理器、 類比數位轉換器、類神經網路硬體加速器、Memory分配器及大量的記憶體暫存器外,更搭配自行開發的演算法,讓晶片在相同耗電量下可運行更大參數量之模型且效能更好的演算法。
此外,意騰所量產之晶片產品均為高效能、低功耗智慧語音聲學處理器晶片,可提供相容於常見audio介面的port,讓對講機、耳機、會議音箱、電腦螢幕麥克風等通常不需具備高運算力單元或能力的客戶可直接在既有裝置線路上導入省電與高效能兼具的晶片,並能有效避免噪音干擾及語音失真等問題,進一步提升產品附加價值。
意騰在ASIC產品優勢在於
(a)具有演算法、韌體、硬體的高度整合能力。
(b)採用邊緣運算,降低通話延遲及訊號丟失,可實現高精準度與低誤判率。
(c)是專為處理聲音訊號的晶片,運算量大,但兼具節能節電的低功耗的特性。
依照功能,intelliGo意騰的聲學功能可分為語音增強降噪,和語音辨識技術。如下:
(1)語音增強降噪技術
(a)AI 模型訓練流程:
IntelliGo 使用超過數十億的audio數據訓練深度神經網路(DNN)算法,使 DNN 模型能在各種複雜噪聲環境中精準辨別人聲,過濾掉其他非人聲的audio。這種創新的訓練流程使IntelliGo 的語音增強技術在各種噪音環境下具備出色的泛化能力。
(b)AI 智慧降噪算法
intelliGo 的降噪技術可應用於上行方向,不僅能消除穩態和非穩態噪音,還能保持語音質量,避免語音失真,從而提升遠端聽者的通話聽覺體驗。這項技術也可應用於下行方向,當對方在嘈雜環境中通話時,使用者能清晰聽取他人的聲音。
(c)AI 智慧波束成形算法
intelliGo 的突破性AI波束成形技術融合深度神經網路(DNN)與先進聲學工程,能從多個麥克風中提取特定方向的聲源,有效過濾掉預定方向以外的干擾聲音,包括不需要的噪音和干擾者的聲音。
(d)AI 智慧echo消除
聲學echo消除技術允許全雙工模式,能在雙方同時說話時增強語音並消除echo。通過AI深度學習方法,此解決方案還能處理低信噪比(SER)和非線性echo等較為挑戰情況。相比傳統的echo消除方法,intelliGo的聲學echo消除技術對於機構設計得依賴性較低,從而提供更穩定和高效的解決方案。
(f)AI 智慧DE-REVERBERATION
intelliGo的人工智慧Dereverberation技術可有效消除在音樂廳或聲學反射表面較多的空間中產生的回聲。該技術通過提高Direct-to-Reverberant Ratio (DRR)的比率,使人聲聽起來更近、更清晰。intelliGo的深度神經網路模型能夠處理長尾回聲和複雜的聲學路徑變化,顯著改善各種聲學環境中的audio品質,為用戶提供卓越的聽覺體驗。
(g)AI智慧howling control
intelliGo的人工智慧處理器採用先進的howling control技術,可有效消除由喇叭撥出的聲音再被麥克風收入所引起的howling雜訊。這種ACOUSTIC FEEDBACK產生的howling通常是Narrow-Band且響亮的,容易導致喇叭輸出飽和。intelliGo的AI處理器能夠在整個信號頻帶內快速動態地跟蹤howling雜訊,實現高效抑制。與傳統方法相比,這種基於AI的解決方案具有更強的適應性和更快的回應速度,可以在各種複雜的聲學環境中提供穩定的howling抑制效果,大大提升audio系統的使用體驗。
(h)AI 智慧FAR-FIELD PICK-UP
intelliGo意騰的AI FAR-FIELD PICK-UP技術是一種先進的audio處理解決方案,能夠只將遠距離說話者的聲音調整到清晰可聽的一致水準,但不會同時放大背景雜音。無論說話者聲音大小、遠近如何,該技術都能即時將其音量歸一化到相同水準。這意味著,即使在複雜的聲學環境中,無論說話者聲音洪亮或輕柔,距離近或遠,都能保持一致的音量。這種智慧音量調節確保了流暢舒適的對話體驗。
(2)語音辨識技術
intelliGo意騰於 2022 年下半年度併購「語音辨識團隊」 賽微科技。賽微主要從事語音辨識及語音合成等技術,其產品包含 IC 軟體技術授權、車用語音及企業雲端語言解決方案,銷售模式可分為軟體授權、軟體設計及軟體服務等。
(a)語音轉文字 (STT) 與文字轉語音 (TTS) 解決方案
STT(語音轉文字)和 TTS(文字轉語音)解決方案能夠實時轉錄或處理錄音文件。STT 解決方案針對不同的部署配置進行優化,而 TTS 解決方案則提供個性化的語音合成服務,可打造獨特品牌聲音。這兩種解決方案均可根據終端用戶的行業需求進行客製,並支援超過 90 種自然語言和多種口音,提供更高寬頻可用性和更短的響應時間。
更重要的是,IntelliGo的STT&TTS解決方案採用先進的邊緣計算技術,從而保證了數據的安全性和隱私性。
(b)關鍵詞檢測
關鍵詞檢測技術(KWS) 是語音處理領域中的一項關鍵技術,在實現智慧設備的語音控制和喚醒功能方面扮演著至關重要的角色。當偵測到預設的喚醒詞時, KWS會觸發後續處理,開啟語音控制的大門。
在邊緣計算設備中,一個高效且穩健的KWS系統尤為重要。它不僅能有效防止誤觸發,還能顯著降低設備的能耗。若沒有高效的KWS ,後續處理模組可能會頻繁被喚醒,導致產品嚴重的耗電。
IntelliGo提供的KWS技術提供了完美解決方案,其客製化喚醒詞引擎不僅具有業界領先的低誤觸發率和高命中率,還能在保證性能的同時兼顧成本效益,為智慧設備製造商提供了一個理想的選擇。
(c)客製化邊緣語音命令
IntelliGo的客製化邊緣語音命令技術是一項專為語音命令辨別而設計的先進技術。與傳統的自動語音辨別(ASR)或依賴雲端運行的高耗能處理器不同,IntelliGo的客製化邊緣語音命令技術既強大又輕量,由於處理過程在本地進行,語音命令的響應速度更快,避免了因網路延遲而導致的等待時間。無需上傳到雲端,從而大大提高了用戶數據的隱私性和安全性。
產業概況
(1)AI 及語音辨識市場
根據 Bain & Company 於 2024 年科技報告顯示,整體 AI 產業收入將於 2023 年 1,850 億美元成長至 2027 年約 7,800 億美元~9,900 億美元,其中 AI 基礎建設相關業者將佔整體收入半數市佔,其餘市佔依序將由 AI 應用市場、資訊服務、應用工具及 AI 模型發展等瓜分,AI 運算晶片之研發、AI 軟體服務及應用工具等科技公司將為主要受益者。
另根據 McKinsey & Company 研調報告顯示,AI 科技將仰賴九大科技層面之發展,包括服務整合、資料訓練及分析、AI 平台建構、使用介面系統及硬體之進步,並將驅動從事相關產業之科技公司。
在數位化與智慧化趨勢推動下,包括智慧型手機、智慧音箱甚至是工業機器人等物聯網裝置設備都將不斷增加,加上自動駕駛、影音辨識、語言處理與生成式 AI 等應用,都加速了 AI 技術發展與高效能晶片市場的擴張。
根據 Statista 資料,2023 年~2030 年全球 AI 晶片市場將持續增長,預計於 2025 年成長為 390 億美元,2030 年增長為 1,510 億美元,而這一增長主要來自於 AI 技術在消費性電子產品中的廣 泛應用。
另依據 Statista 預估全球生成式 AI 市場規模將在 2024 年達到 360.6 億美元,並在 2030 年到達3,561 億美元,AI 市場涵蓋供應鏈、營運、產品製造、研究分析等領域,其終端使用者的行為模式因 AI、機器學習及深度學習而改變,聲學處理及語音辨別也在應用商機持續成長下具備成長潛力。
智慧音箱啟動人機介面革命後,The Business Research Company 預估全球語音辨識市場以年複合增長率 19.8%成長,將在 2027 年達到 287.2 億美元,且亞太地區將成為預測期間內最急速成長的地區。
例如,消費者可以透過語音助理進行控制、使用藍牙連接及其他智慧功能來操作電子產品,這不僅增強了使用的便利性、互動性和效率,還提升了整體消費者體驗,這些創新技術實現了電子設備與日常生活的無縫整合,從而進一步推動整體消費性電子產品市場的增長,因此預計到2027 年超過 35%的消費型電子產品將整合 AI 功能,提高了電子產品更加智慧化。
另由於 AI 產業將朝向減少功耗、延遲及數據計算之邊緣運算應用發展,且邊緣運算將應用於各式產品及服務,Bain & Company 透過針對專門特定應用需求開發之嵌入式晶片之調查,預測到2027 年整體特定應用晶片規模將達 2,770 億美元,其中 1,270 億美元預測將來自智慧邊緣運算裝置,主要將應用於消費性電子產品,如頭戴裝置、資訊娛樂裝置(語音設備、audio裝置、攝影機等)、智慧手機、物聯網設備等裝置。
(3)消費性電子市場
消費性電子泛指消費者日常生活中使用的電視、電話、電腦、音響、播放機等電子產品。意騰產品已於個人電腦、耳機、會議音箱等終端產品所應用。
(a)個人電腦(Personal Computer, PC)
根據 IDC 全球個人運算設備追蹤季報資料,2024 年第一季傳統 PC 市場(桌上型電腦、筆記型電腦和工作站)全球出貨量為 5,980 萬台,較去年同期成長 1.5%;隨著 AI 讓 PC 實現 AI 操作的新產品需求、通膨趨緩、後疫情時代工作與學習型態改變等因素,PC 出貨量有機會在汰舊換新的需求下提高。
(b)聲學週邊裝置
聲學週邊裝置泛指以藍芽、WiFi 傳輸並運用在無線通訊、健身追蹤及醫療監測的多用途高級電子耳設備,包含耳機、耳麥及助聽器(DataM Intelligenc);在語音介面技術的進步、對娛樂視聽的需求提升、日益重視健康監測的醫療保健市場需求增加,持續推動聲學週邊裝置市場。
a.耳機及 TWS 耳機
耳機的廣泛使用與智慧型手機、平板及多媒體設備的增長密切相關;耳機市場在 Apple 發表TWS 耳機及取消耳機插孔的重要變革後,進入無線傳輸領域,隨著語音命令及主動降噪技術的加入,已推出能輕鬆享受無干擾音樂、可留意週圍環境聲響、保有清晰通話功能及長效電力的耳機產品。
德國數據平台 Statista 估算 2024 年耳機收入可達 180 億美元,以 2.4% 的年複合成長率增長,預計 2028 年耳機出貨量將達 13 億台,雖 Canalys 提出 2023 年第三季個人智慧Audio設備(含 TWS 耳機、無線頭戴及無線頸掛)出貨量較去年同期下降 3%,但 TWS 耳機在外型美觀、長效電力、便於攜帶、高優質的通訊品質及降噪功能的特色,加上美國食品及藥物管理局(FDA) 2022 年 10 月正式開放一般消費通路販售非處方助聽器,使得具輔聽功能的 TWS 耳機延伸到醫療領域,為耳機市場帶來新成長動能。
b.電競耳機
電競耳機是專為遊戲臨場感而開發的耳機,在播放音樂及遊戲音效的同時,也配置有線上玩家直接進行聊天的麥克風,在傳遞準確聲音定位及音效空間化下,讓遊戲音場表現更佳,並適用在各款遊戲。消除背景噪音、更好的音質、更佳的耐用度及經濟性是推升電競耳機出貨量的重要因子;Business Research Insights 評估,電競耳機在全球遊戲應用程式數量增長下,以年複合成長率 8.14%成長,有機會在 2031 年達到 41.54 億美元。
c.助輔聽器世界衛生組織(WHO)於 2021 年「世界聽力報告」警示,全球人口約十五億人有聽力損失狀況,其中四億人為失能性聽力喪失,在中高齡化及視聽娛樂系統的盛行下,2050 年將有四分之一的人口遇到程度不等的聽力問題,若無預防措施或治療,則失能性聽損人口將攀升至七億人,但 約六成的聽損可在發生初期以治療或助聽輔具協助改善聽損狀況或延緩退化。
助聽輔具的產品類型包含耳背型助聽器、耳內接收器助聽器、耳內式助聽器及耳道式助聽器;依據 Vantage Market Research 針對助聽器市場的統計資料顯示,2022 年全球助聽器價值為 94 億美元,在創新技術的處理下,讓數位化聲波可實現準確聲音並轉為符合聽眾需求的聲學訊號, 加上耳內接收助聽器舒適及貼合性,以年複合成長率 4.4%估算,全球助聽器市場規模將在 2028 年達到 130 億美元,並於 2030 年達到 132.6 億美元。
d.行業通訊應用-無線對講機無線對講機(Walkie-Talkie)無需透過基礎設施連接,且可用專屬的通信頻段避免訊號干擾,加上無通話費限制,在連接性、可靠性及通訊安全的考量下,容易成為關鍵業務傳遞及溝通資訊的工具,常用於緊急救援、軍事國防、政府與警察機關、工業生產、公共安全、交通運輸等喧鬧或是相對固定且通話頻繁的工作場景。
在物聯網(IoT)、AI、自然語言處理的普及、LTE 及 LMR 的技術融合下,創造即按即說(對講機)的市場商機,研調機構 Research and Market 指出,受到俄烏戰爭及對重要資訊傳遞要求限制的影響,全球對講機市場收入在 2024 年約為 58.9 億美元,以 8.4%的年複合成長率估算,對講機在 2030 年市場收入將可達 95.9 億美元。
產業上、中、下游之關聯性
在聲學處理及語音辨識領域,因對即時性要求極高及聲紋具備獨特性,使得聲音數據運算處理量龐大,且透過廠商分別開發硬體、韌體及軟體下,技術整合、時間及成本皆高,讓客戶在尋求一個完整聲學處理解決方案時,必須取捨功耗與效能,以求平衡。
intelliGo意騰具有「晶片設計」、「演算法」、「聲學系統處理」及「語音辨識」的專業核心能力,係屬半導體產業體系中最前端之源頭。
intelliGo意騰,是一家AI聲學、語音辨識解決方案公司。2023年營收為6億,ROE為14%,毛利率為95%,負債佔資產比率為9%。公司產品以AI智財授權暨技術服務佔營收73.54%,ASIC產品佔營收26.46%。其中,ASIC產品毛利率為81%,AI智財授權暨技術服務毛利率為100%。銷售區域以台灣佔77.12%,亞洲佔21.95%。公司最大客戶為達發科技,佔公司營收32.39%,另外,代理商文曄佔公司營收17.05%。intelliGo意騰研發費用佔營業收入為52.71%。
截至現在,intelliGo意騰已成功量產三顆不同類型多種配置之 AI 語音處理晶片,可配合客戶提供適用之 AI 語音處理晶片。
競爭
在 ChatGPT 問市後,人工智慧(Artificial Intelligence, AI)產業成長潛力備受看好,而需要聲學處理、語音辨識以及自然語言處理的終端產品亦隨之增加,目前已有知名廠商投入大型語言模型及生成式 AI 的開發。
聲學領域中,聲音數據及技術處理經驗的累積難有速成之道。intelliGo意騰是市場上最早利用 AI 技術進行聲學處理的廠商,雖晶片設計、演算法及聲學處理的整合及開發成本較高,但可提供完整聲學產業鏈的全方位解決方案,縮短客戶溝通 及產品開發上市時間。
市場上各自擁有語音辨識、語音合成、語意理解與對話、 回音消除、語音分離、降噪抗噪功能的廠商不少,國內的產官學合作體系亦有電聲產品設計、雜訊抑制等技術,隨著 AI 技術的快速增長,不難避免已有直接採用 AI 技術處理、規劃透過技術移轉或企業併購而迅速踏入 AI 聲學處理領域的廠商。
發展趨勢
未來數年在 AI 語音技術不斷快速發展下,將為消費者帶來更自然、準確與安全的語音互動體驗,並具有應用潛力。
(1)生成式 AI 技術
生成式 AI 突破傳統監督式學習侷限,大規模預訓練語言模型可在大量語音數據中自主學習語音內容、情感、知識,進而實現高質量語音辨識和合成,以進一步提升語音互動系統效能。
(2)大型語言模型互動系統
近年的研究結果指出投入大量資料訓練加上使用大參數量之模型,可顯著提升效能,因此大型基礎模型(Foundation Model)成為 AI 產業中關注的焦點。 2023 年底 IEEE ASRU Workshop 會議中,已利用現成的 Foundation Model,如 Whisper、LLaMA 2/3 等模型,再加入 Trainable Adaptation Layers 的方式建構語音系統,整合語音、文字、提示(prompt)等輸入,執行語音辨識、翻譯、對話、聲音場景描述等任務,是會議的重要焦點。
(3)人性化的語音互動
AI 語音系統在辨識內容外已被期待可精準地捕捉說話者的情緒、語氣和意圖,情感分析能力將使語音對話系統更進步並可提供人性化與適當的響應。 Meta 提出之 Generative Spoken Language Model(GSLM)係代表性研究之一。
(4)邊緣 AI(Edge-AI)運算晶片
隨著 AI 晶片的發展,語音辨識、合成等工作將逐步由雲端轉移至邊緣設備上進行,提高反應速度(response speed)並降低對網路的依賴。邊緣運算是藉由晶片製程及算力提升、算法模型優化、資料傳輸頻寬增加,以及提高記憶體使用效率等方式,使模型的參數量與效能得以大幅提高;高能效比(TOPS/W)與高算力密度(TOPS/mm2)亦是 AI 晶片的重要設計目標。
0 意見:
張貼留言