-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
智能交互技術(智能交互技術的研究內容)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于智能交互技術的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
ChatGPT國內免費在線使用,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內容,越精準,寫出的就越詳細,有微信小程序端、在線網頁版、PC客戶端
本文目錄:
一、度秘是小度嗎
度秘是小度 這個小度小度的話就是指的一個百度精靈,就是指的是百度旗下的一款語音助手,所以的話,杜密的話就是指的角度。
二、科大訊飛有前景嗎?
科大訊飛作為A股市場的AI龍頭,是語音識別、合成技術方面絕對的老大。如果說公司之前是專攻語音技術方面的開發(fā),那么現(xiàn)在基本上是全面轉向AI,既做開發(fā),又做平臺,還做應用,但每個領域又都沒有表現(xiàn)出自己該有的市場競爭力,就連看家本領也正被群狼追趕,差距越來越小。相對于大佬們而言,現(xiàn)在的科大訊飛至多算是在做點小買賣而已,讓我們一起來看看它到底是一家什么樣的企業(yè)。
它是技術型企業(yè)嗎?
當然是。特別是它在創(chuàng)業(yè)時期,從無到有,從感知智能拓展至認知智能領域,逐漸長大,走的是自主研發(fā)的道路,是一家名副其實的技術型企業(yè)。只是現(xiàn)在它不單單做技術開發(fā),而且它的技術也不再像以前那樣不可替代,類似技術與產品現(xiàn)在阿里云、百度云、騰訊云網站中列式的服務清單里都有,這說明要么它們也掌握這樣的技術,要么就是即使它們不掌握這樣的技術,也可以通過引入的方式為己所用。但不管如何,公司的技術地位正被挑戰(zhàn),市場正被分食的事實沒有改變。這點在公司財報上也得到充分說明,上半年公司實現(xiàn)營業(yè)收入32億元,同比增長52.68%,扣非凈利潤僅2020萬,同比卻下降了74.39%,盈利狀況疲軟,這與它在智能語音行業(yè)中的地位格格不入,也不符合成熟型技術企業(yè)的特征,可以說公司在語音領域技術上的優(yōu)勢不再明顯。
它是硬件品牌企業(yè)嗎?
可以算是,但卻沒有做好。公司從教育到醫(yī)療,從客服到智能家居,再到移動手機端和車載環(huán)境等領域,有多款應用及硬件產品,據說是由其技術驅動,遺憾的是它所提供的多數產品,只要用戶在手機上下載一個APP應用軟件就基本可以解決需求;加上公司沒有互聯(lián)網的入口,形成不了自己的“飛粉”,這或許才是市場到目前都沒有出現(xiàn)訊飛爆款的原因。目前代表公司技術最高水平的產品,應該是那款可以將33種世界上主要語言與漢語進行瞬間對譯的即時智能翻譯機,但畢竟它不是大眾級別的產品,受用群體較小,更何況“高、精、尖”的產品在大眾化的消費市場里,替代效應其實并不明顯,因為它價格昂貴,所以它也成不了爆款,公司自然也就難以形成自己的硬件品牌形象。
它是互聯(lián)網企業(yè)嗎?
應該說不完全是。公司利用自己的技術優(yōu)勢,開發(fā)并運營有訊飛開放平臺,該平臺作為全球首個開放的智能交互技術服務平臺,致力于為開發(fā)者打造一站式智能人機交互解決方案,目前開放平臺以“云+端”的形式向開發(fā)者提供語音合成、語音識別、語音喚醒、語義理解、人臉識別、個性化彩鈴、移動應用分析等多項服務。但是與其他互聯(lián)網企業(yè)相比,特別是與互聯(lián)網行業(yè)龍頭相比,公司最大的短板就是沒有自己的業(yè)務場景,只能說公司有互聯(lián)網的基因,但又缺少互聯(lián)網企業(yè)開放的特質,更沒有互聯(lián)網的用戶,特別是2C方面,形成不了互聯(lián)網的生態(tài),自然也就難有大的成就。
它在多個賽道上的布局真的會有前景嗎?
只能說并不看好。近年來,公司在教育、司法、醫(yī)療、智慧城市、智能服務、智能車載等行業(yè)持續(xù)發(fā)力,應該說效果顯著,但是在這些領域它只能提供語音領域相關產品,相對單一,整體而言市場競爭力其實不強。公司之所以2B又2G,恐怕還是出于作為上市企業(yè),有做大規(guī)模與業(yè)績增長方面的考慮、需求與壓力,但這顯然又是得不償失的,畢竟這個領域不但競爭激烈,還需要建設一個龐大的現(xiàn)場支撐體系。反映在財務報表上,就是它的銷售費用陡增,目前公司這部分費用的絕對金額與所占營收的比例均已超過研發(fā)費用。在各賽道上的布局,將會使公司慢慢脫離以 科技 為導向的標簽,進而逐漸成為一家以智慧項目為主導的系統(tǒng)集成商。
未來,它將何去何從?
獨立看科大訊飛所涉獵的上面四個領域,應該說每個領域均有機會但又都未成氣候,也看不到短期內有大成就的可能;但如果將上述領域綜合起來看,科大訊飛是不是在下這樣一盤大棋,那就是它想做資源的整合者、做巨無霸?這樣看又顯示出它不自量力的一面,畢竟語音智能技術所屬領域太細,只是人家項目里或平臺中的一項應用而已,而且是非核心應用,所以它做不好自己的平臺,更難以整合資源,貌似更應當立足智能語音這個主業(yè),專研技術,以更加開放的胸懷,將自己的語音技術主動融合或嵌入到其他的互聯(lián)網平臺、智能硬件產品、智慧城市項目中去,而不應該選擇自己去做,否則就不會失去這幾年大好的發(fā)展時期。無論怎樣,公司在自己的語音識別領域里,技術實力還是很強的,未來商業(yè)模式與核心競爭力的締造,肯定還有一段漫長的征程,但愿在這漫漫長夜中,企業(yè)能夠專注一點,再專注一點,戰(zhàn)役一場接著一場去打,而不是現(xiàn)在這樣四面出擊,更不能在黎明之前,倒在資本的壓力之下。
科大訊飛的核心是語音識別。隨著AI的不斷發(fā)展,它的優(yōu)勢將漸漸減少。
早些年,科大訊飛憑借客服語音電話逐步起家,成為語音識別的一霸。在整個市場都尚未對語音識別重視的時候,科大訊飛在這一細分領域扎根了那么多年,因此其建立起來了一定的技術壁壘。
上周我們也聊到一家 科技 企業(yè),經歷了B輪融資后,現(xiàn)在大規(guī)模裁員,接近宣布破產。該公司在2010年專注于某一細分領域,獲得了較好的技術壁壘,在市場開始來的時候,它迅速飛起,興于技術,也敗于技術;因為行業(yè)的起來,大量資金的投入,技術壁壘就會很快被突破。當別人的技術與你在客戶感知上差別不大的時候,你的優(yōu)勢就漸漸消退,除了我說的那家公司(暫時不方便說出真名),還有一家特別有名的公司:夏普的液晶業(yè)務也是同樣。
技術的發(fā)展曲線,前面是緩慢前行,但當市場來臨,大量資金涌入的時候,技術會快速發(fā)展變化,所以如果在此之前不能建立良好整個公司體系,將難以應對。
在這種變革時代,千萬不要以為有了前期的技術優(yōu)勢,就肆無忌憚,以為未來的市場就是你的,那就大錯特錯了。
企業(yè)的戰(zhàn)爭是非常殘酷的,生死往往一線之間。成功很難,要把各種漏洞都補上了,正如任正非老先生給的那架飛機一樣,你只有不斷的把所有洞都補上了,才可以。而失敗,很簡單,只要有一個洞沒補上,然后擴大化,企業(yè)就完蛋了。
企業(yè)的戰(zhàn)略 對錯,決定了科大訊飛未來的方向,方向性錯誤,那就不用說了?,F(xiàn)在處于變革時代,選擇很重要。
企業(yè)文化 ,在曾經一家獨大的時候,企業(yè)文化或許不是那么重要,但是如果面對整個行業(yè)爆炸發(fā)展,更多的對手的時候,企業(yè)文化將是核心力量,決定了團隊集體力量的呈現(xiàn),是聚還是散。
企業(yè)的運營 ,決定了你用什么來對抗,很多人以為是技術,而我卻把技術放到排在運營的后面。語音識別97%的識別率與96%的識別率,我們的應用上有多大的差別嗎?這個1%的差別,在應用的體驗上,差別不大,但對于技術上確實非常難,特別是越接近100%的時候,難度程幾何系數增長。
所以,如果想知道科大訊飛的未來,不妨去看看這三個方面??赐曛?,你自然就明白了。
人工智能肯定會失敗,科大訊飛怎么可能有前景?
可惜了!
科大訊飛是一家專業(yè)從事智能語音及語音技術研究的AI企業(yè),語音技術主要包括語音合成和語音識別兩項關鍵技術。讓機器說話,用的是語音合成技術,讓機器聽懂人說話,用的是語音識別技術,現(xiàn)在及未來都有著廣闊應用空間??拼笥嶏w也是 科技 部正式設立第一個人工智能國家重點實驗室認知智能國家重點實驗室的落地企業(yè),國家能將這樣一個高水準的實驗室交由科大訊飛承建,也足以說明科大訊飛在這一領域的領先地位,科大訊飛已成為AI這一領域的頭部企業(yè),比較看好他的未來。
在中國,一些國資背景的公司不是為了盈利而生的。
前途還是有的,重新調整,畢竟人材的資源不錯,有國家做靠背
很有前景,現(xiàn)在手機上錄入,我更愿意用語音。
科大訊飛在耳和嘴上下足功夫,你想想一個占據人體五官中的兩個的技術,前景得有多大。
三、人機交互的趨勢
由于蘋果Siri的出現(xiàn),我們已經習慣于通過語音撥打電話、打開應用、查詢天氣,也能不動一根手指,用語音輸入法發(fā)送消息,但這些語義應用,依然借助了屏幕這一載體。未來,智能設備可能幾乎是沒有屏幕可以觸摸,最終只能通過語音這種采集成本低、容易集成的方式來實現(xiàn)人機交互。
隨著大數據、機器學習、云計算、人工智能等技術的發(fā)展,語音識別在一步步解放用戶的雙手,語音輸入框也大有取代鼠標、鍵盤之勢。伴隨著智能移動設備的普及,語音交互作為一種新型的人機交互方式,正越來越引起整個IT業(yè)界的重視。未來的智能語音技術將涉及到很多方面,成為智能終端與人交互的媒介。前段時間出資發(fā)布會上,老羅不僅發(fā)布了錘子手機也將一個叫訊飛的語音輸入法火了起來,因為其語音識別正確率達到97%。在百度的語音平臺開放三周年慶典上,相關人士曾經說過:“最新的語音技術有很大的潛力,能夠徹底改變人機交互的效率和辦法。未來語音技術在很多應用場景有很好的機會,將為人機交互帶來巨大的改變?!卑俣日Z音識別準確率目前已達97%。而且目前,百度語音開放平臺的合作伙伴已涵蓋多個領域和場景,包括智能手機領域的聯(lián)想、中興;智能家居領域的長虹智能電視、康佳智能電視、SONY智能電視;汽車行業(yè)的特斯拉、途勝;智能設備領域的惠普、艾米通訊;智能服務領域的攜程、手機QQ閱讀等。
我們可以想象一下,當我們乘坐一輛百度無人駕駛汽車行駛在路上,只需說出幾個簡單的詞語,便可獲得旅途所需的一切,車載人機交互系統(tǒng)可智能識別語音指令,輕松控制導航,語音通話,娛樂系統(tǒng)等各項功能,汽車也仿佛不再是冰冷的交通工具,而變得更有智慧。電子設備從過去的智能工具,開始成為與人交互的“伙伴”。
四、搭建智能語音交互系統(tǒng)重要點那些
序言
隨著人工智能命題的提出,近年來涌現(xiàn)出一大批基于人工智能的呼叫中心業(yè)務服務商和集成商,僅智能外呼這一模塊兒就將近百家公司在推廣和運營??梢哉f整個基于人工智能技術的市場開始蓬勃的發(fā)展起來了。
簡單介紹一下什么叫做智能語音交互平臺。其實大實話就是在呼叫中心基礎上,集成 ASR、 TTS、的呼叫服務平臺。
那么如何我們自己去搭建智能語音系統(tǒng)呢?
我們先列出搭建智能外呼系統(tǒng)的搭建需要那些技術和服務:
個人認為:
[if !supportLists]· [endif] 首先最重要的是交換機:
[if !supportLists]1. [endif]PBX也就是交換機,商用設備原廠包括像華為、Avaya、思科、東匯等這些生產硬件交換機,
[if !supportLists]2. [endif]還有就是目前FreeSitch、asterrisk、OpenPBX這些軟件交換機。
[if !supportLists]· [endif] 其次是AI技術: 及包含語音識別、語義理解、語音合成這三種技術是核心組成部分。語音識別相當于人的“耳朵”,接進電話后,對人的話語進行處理轉義成系統(tǒng)能夠識別的數據交由系統(tǒng)處理去識別。在進一步的話,可以轉義為文字。語義理解相當于人的"大腦",根據話語識別人的意圖。語音合成,相當于人的”嘴巴“,識別人的意圖之后,依照特定的回答方式,去回復和引導對話。
[if !supportLists]· [endif] 再者是前端服務平臺:即用戶登錄、配置呼叫流程,建立呼叫任務、統(tǒng)計呼叫數據、導出呼叫報表的網站,這個是終端用戶唯一可以看到并且操作的界面。
[if !supportLists]· [endif] 最后是外呼線路:其中包括三大運營商以及其他小型的集成線路供應商,主要目的是外呼電話或者是接入電話。
也有人可能有疑問:”智能語音交互系統(tǒng)最重要的不是人工智能么,和交換機有啥關系?”為什么說最重要的是交換機呢,原因是不管我們是外呼還是接入電話、都需要前端服務平臺把外呼請求發(fā)送給交換機,通過外呼線路而撥出去。換句話說交換機是控制整體的外呼情況。硬件的交換機,比如說像華為的交換機,價格在大約幾萬到幾百萬不等的價格。對于想要建立自己的智能語音交互系統(tǒng)來說,價格對于一些小型公司來說承受不起,而FreeSitch這種軟交換則大大方便了小型公司建立自己的智能語音交互系統(tǒng)。
什么是FreeSwitch?
FreeSitch是一個電話的軟交換解決方案,包括一個軟電話和軟交換機用以提供語音和聊天的產品驅動。FreeSitch 可以用作交換機引擎、PBX、多媒體網關以及多媒體服務器等。支持多種通訊技術標準,包括 SIP, H.323, IAX2 以及 GoogleTalk ,同時也可以方便的與其他開源的PBX系統(tǒng)進行對接。而且具有很強的伸縮性。旨在為音頻、視頻、文字或任何其他形式的媒體,提供路由和互連 通信協(xié)議 。
FreeSwitch 的典型功能
[if !supportLists]· [endif]在線計費、預付費功能。
[if !supportLists]· [endif]電話路由服務器。
[if !supportLists]· [endif]語音轉碼服務器。
[if !supportLists]· [endif]支持資源優(yōu)先權和QoS的服務器。
[if !supportLists]· [endif]多點會議服務器。
[if !supportLists]· [endif]IVR、語音通知服務器。
[if !supportLists]· [endif]VoiceMail服務器。
[if !supportLists]· [endif]PBX應用和軟交換。
[if !supportLists]· [endif]應用層網關。
[if !supportLists]· [endif]防火墻/NAT穿越應用。
[if !supportLists]· [endif]私有服務器。
[if !supportLists]· [endif]SIP網間互聯(lián)網關。
[if !supportLists]· [endif]SBC及安全網關。
FreeSwitch最典型的功能是作為一個服務器,并用電話客戶端軟件連接到它。雖然FreeSwitch支持眾多的通信協(xié)議,但其最主要的協(xié)議還是SIP,通過SIP中繼發(fā)起會話協(xié)議。
使用FreeSwitch這種軟交換的好處在于,你只需要一臺服務器就可以隨時搭建自己的外呼中心,而且FreeSwitch支持跨平臺運行。能夠原生運行Windows、Linux、BSD等諸多32/64位平臺。
FreeSwitch內部使用線程模型來處理并發(fā)請求,每個連接都在單獨的線程中進行處理,不同的線程間通過Mutex互斥訪問共享資源,并通過消息和異步事件等方式進行通信。FreeSwitch本身是比較穩(wěn)定的,它是比較優(yōu)秀的開源軟件。另一方面來講,F(xiàn)reeSwitch又是比較激進的,它的開發(fā)分支里會有大量的新特性加入,因此在測試不全面的情況下,很容易出現(xiàn)不穩(wěn)定的情況。而在用于生產環(huán)境的情況下,系統(tǒng)的穩(wěn)定性是系統(tǒng)能否正常被使用的關鍵。之前我們在做項目的過程中,就遇到一些FreeSwitch不穩(wěn)定的情況,導致外呼情況不理想。舉一個例子:我們在進行測試外呼的時候,語音通話斷斷續(xù)續(xù),雖然前端服務平臺可以很好的接受到數據的傳輸,但是,真正在與人工進行溝通的時候,會出現(xiàn)各種各樣的溝通障礙,為了解決這一個問題,我們花費了幾個月的時間,去研究FreeSwitch的結構特性。終于把這個問題解決掉。我們的項目才得以繼續(xù)推動,最終得以真正落地部署實施。
也有人可能有疑問:”FreeSwitch軟交換雖然重要,但是既然是智能語音交互系統(tǒng)人工智能不重要嗎?”,重要,當然重要!容我慢慢道來~
AI 技術
1. 通信原理
先簡單解釋一下正常打電話這個流程
流程:A→PSTN→B
解釋:PSTN是Public
Switched Telephone Network,意思為公共交換電話網絡,也就是我們的運營商的網絡電話,
那我們平時如何給呼叫中心比如打電話是如何打的?:個人A打電話給呼叫中心1***6 打電話,撥通后聽到錄音,您好,撥打人工臺,請按0鍵,按鍵之后,出現(xiàn)盲音,真正接通之后,客服接通了電話。
流程:A→PSTN→PBX→IVR→客服
解釋:PBX也叫交換機、相當于整個呼叫中心的出入口
IVR也叫互動/交互式語音應答,語音導航,也就是相當于咨詢業(yè)務請按鍵,這一環(huán)節(jié),根據業(yè)務去分流到客服。
智能語音交互平臺(智能機器人)落實到具體具體業(yè)務場景是如何實現(xiàn)的:
如:”個人A要在某一個大型酒店預訂位子“,
A撥通后先聽到了聲音,“您好,我是機器人小岳,需要我?guī)湍單蛔邮菃幔?/p>
個人A說,“我不要和機器人說話,找個真人來”。
然后聽到錄音,“為您轉接很貴的真人客服,排隊中,請稍后”。
幾分鐘后接通,真人客服接了電話。
流程:A→PSTN→PBX→IVR(TTS→ASR→NLP→TTS)→ACD→客服
解釋:在IVR部分:不再需要提示按鍵,而是直接問來電方需要辦理什么業(yè)務,然后識別語音、理解意圖后,根據用戶的需求,回答后轉入對應的業(yè)務隊列排隊。
上邊是接通的流程,呼出的流程與之相反,就不在贅述了。
2. 現(xiàn)在市場上的AI技術的運用
目前市場上的不管是ASR、TTS、NLP都被阿里百度科大訊飛等巨頭公司所占據,這些技術在國內基本已經成為定局。像ASR這類引擎市場上大部分都是用的阿里云和訊飛云的,要不就是百度云。阿里云和訊飛云的識別率高一些,可以達到97%左右、百度的差一些,識別率在80%左右,我們當初在做項目的時候選擇ASR做過測試,事實證明阿里云識別率更高同時也可以識別方言。因此,我們在做項目的時候,當仁不讓的選擇了阿里云的
TTS我們選擇的是訊飛的,選擇的理由很簡單,畢竟科大訊飛是人工智能領域巨頭級的公司,質量當然有的保證。
3. AI 能力對接
在具體落地中,這個領域的常規(guī)參與者通常具備呼叫中心能力或者AI能力其中一種,而主要的對接點也就在于AI能力與呼叫中心設備去對接,而ASR/TTS與呼叫中心設備對接的常規(guī)協(xié)議主要是mrcp/sip。
媒體資源控制協(xié)議(Media Resource Control
Protocol, MRCP)是一種通訊協(xié)議,用于語音服務器向客戶端提供各種語音服務(如語音識別和語音合成)。有兩個版本的MRCP協(xié)議,版本2使用SIP作為控制協(xié)議,版本1使用RTSP。
實際對接的時候,會遇到不少技術問題,當我們ASR/TTS引擎做私有云部署,為了避免了內外網穿透時防火墻的諸多設置和語音流的時延。這在我們當時對接的時候也花費了好大一番功夫。
前端服務平臺:
其中最重要的就是配置呼叫流程這一塊兒了,
這一塊兒很容易被忽視,但是這反而是可以出成績的地方。一般來說一套最佳話術模板,可以以一敵萬。心理學基礎必須要有,一句話怎么說能讓接電話的人最大概率的順著自己的思路走,達成目的,從而形成特定細分領域機器人話術模板,得到最佳的外呼效果(接通率、通話時長、電銷意愿、催收意愿)或者是接通效果(滿意度)
其余的基本就是web端的東西了,具體功能點呢,即用戶登錄、配置呼叫流程,建立呼叫任務、統(tǒng)計呼叫數據、導出呼叫報表,這些功能點基本實現(xiàn)就可以,因為站在產品角度,產品最重要的價值就是可以呼通或者接通用戶的電話,并且能夠準確的識別用戶的意圖,并且準確的回答用戶。這就是智能語音交互系統(tǒng)的最終目標,也一直是我們的最終目標。
外呼線路廠商:
一般如果是購買系統(tǒng)的話,是給提供線路的,只需交一些線路費用。如果是自己做項目的話,網上、淘寶上一大堆,費用可以談,也給提供線路對接的接口。
結語
雖然現(xiàn)在市場上做智能語音交互系統(tǒng)的比較多,但一般只限于各個行業(yè)的電話銷售,真正意義上的智能語音交互還是很少的。原因很簡單,雖然原理不是很難但是真正落地實施的時候,遇到的困難非常的多,幾乎是一步一個坑。好在現(xiàn)在已經真正的落地實施了,方方面面的效果都還是很不錯的。一年多的辛苦沒有白費。哈哈~
寫這篇文章嘗試給大家簡單介紹一下智能語音交互系統(tǒng),然才疏學淺,疏漏和不當之處在所難免,權當給大家拋磚引玉。
諸多細節(jié)限于主題和篇幅的要求不做詳細記述,如有問題,歡迎隨時交流。
以上就是關于智能交互技術相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內容。
推薦閱讀: