第60章 給詞語一個向量

(一個通知,應大家要求小說的時間軸更改爲2017年11月開始,現在劇情時間是2018年3月。當初設定在2009年11月底開始並不是爲了文抄公抄襲現在已經有的技術,而是希望把時間軸拉長一點,現在讀者反映放在八年前代入感弱一些,有些讀者塞班手機都沒有用過,因此進行修改。修改後的前文主角家庭收入、房價、使用的手機電腦等的符合當前時代,別的沒有什麼變化,不影響後文。大家如果發現我前文還有哪裡沒有修改的,請告知,說明不佔字數。以上。)

蕭銘詳細閱讀着盤古語言的優點,最大的有點就是集成了人類漢語的所有邏輯和規則,能夠將人類語言表達意思直接告訴機器。

盤古語言如果使用在潘沙星的生物思維計算機上更能夠發揮作用,現在使用在二進制計算機上,只能說將功能發揮的勉勉強強。

接下來,蕭銘將自己購買的應用套餐兌換爲翻譯軟件。

電腦上出現了翻譯軟件的詳細編程步驟。

兌換的應用套餐不會直接將應用送給你,而是讓蕭銘實際操作,自己搗鼓一個程序出來。

授人予漁不是授人予魚就是這個道理。

蕭銘想着,其實自己的英語已經進步很大的了,語法的問題已經不大,最大的缺點是詞彙量少,聽說能力差,看得懂聽不懂說不會。

這也是大部分夏國學生學習英語的困境。

英語重要嗎?就現階段來說,肯定重要。人類目前大量的技術科學都是來自於西方,英語不好連SCI的論文都看不懂更別說做學術了。

蕭銘這半年來最大的變化就是會自我反省,英語不好也要反省。

他可以抽寶箱,可以兌換科技,但是這些科技產品也是建立在基礎科技知識之上。

要是蕭銘不懂基礎的生物知識,他就不會培養吞噬1菌類,同樣,要是他不懂邏輯知識也絕對不會編程。不懂英語看不懂國外的學術也不會在科技上進步。

天下沒有免費的午餐,人生再有外掛也得努力。

回到計算機屏幕上,蕭銘有了一個大膽的想法,他需要的不僅是一個翻譯軟件,而是需要的一個能夠較爲智能和自己進行英語對話,儘快提高自己英語聽說水平的軟件。

按照盤古語言的編程說明,蕭銘開始動手。

首先,在編程的頁面上,蕭銘書寫着應用軟件的總說明——能夠智慧準確的相互翻譯英語和漢語,並且能和用戶對話。

接下里就是程序的具體書寫。

蕭銘英語詞彙量不足,但是語法沒有問題。

蕭銘歸納,現今市面上的翻譯軟件和翻譯機最大的缺陷有兩個。

Wшw●тTk дn●¢〇

一個是詞不達意。無論是英語還是漢語,通常會有多種意思,在不同的語境中有不同的解釋,但是機器翻譯並不能完全瞭解人類表達的意思。很多時候單詞的詞語意思準確,但是放在句子中笑話百出。

還一個是無法識別人類的語音。這主要出現在翻譯機上,每個人有很多種口音,生活中的對話有很多的俚語,人和人之間對話時絕對不可能像央視主播那樣每句話都是語言要素齊全,語音標準。

機器翻譯在很多時候都會撿着聽得懂的翻譯,聽不懂的亂翻譯。這也是很多品牌的翻譯機拿到國外去應用的時候讓顧客感到並不順心,翻譯機更不能作爲會議同聲翻譯的原因。

爲了處理上面兩個主要問題,蕭銘按照說明書的建議項,編輯着。

蕭銘採用數學的思維,將每個詞語設定爲向量,並且分類爲名詞、動詞等等。

將詞語設定爲向量的好處就是講長難句進行肢解,翻譯軟件處理時會將每個詞語準確的翻譯。

接下來就是按照語言的語境篩選組合,將不同的詞語按照翻譯對象需要的語法和含義進行組合,並對缺少的語法要素進行補足。

在盤古編程語言的提示下,蕭銘知道自己編程的邏輯是正確的。

但是邏輯正確只是第一步,怎麼讓擁有向量的詞語按照語法組合爲新的語句,這個很難,這也是現代翻譯軟件和機器最大的難點。

沒有關係,這是盤古最擅長的。

盤古給了蕭銘幾個接入入了口。

蕭銘將導入大量的中英文資料,資料不僅有名著更有口水話表達的網路小說、貼吧問答、微博、推特文章等等。

未來這些資料會可以由用戶們自己上傳,優化程序的準確性。

盤古的數據庫能將整合這些資料,熟悉每一個句子的語境,然後整理出數據模型(模擬出漢語和英語等人類思維表達方式的模型)。

這些數據會幫助“詞向量”在不同的語境和語法中出現在合適的位置,如此翻譯會更加準確。

這項工作最大的難點就是編譯量非常大!

所以現今市面上現存的翻譯軟件都是採用語言學家總結的語法庫,即便有少部分軟件有自我學習功能,也不能做到了解和統計當今所有的語言習慣並對其作出分析。這也是現有翻譯軟件機械不智能錯誤百出的原因。

剩下的一些接口,蕭銘將其接入全國各地的免費直播間,直播間主播有用普通話有用地方語言,也屬於口語的表達,最具有代表性。

盤古語言將蒐集各地的語音和語氣將其歸類編譯,最後形成語音數據庫和文字庫相對應。

盤古編程使用方式很簡單,不需要輸入代碼,只需要告訴邏輯意圖,當蕭銘告訴邏輯和方式之後,編程語言就可以明確運行。

然後……

然後計算機卡死了,卡得發燙!

蕭銘廢了半天功夫心血化爲烏有。

勞資……

蕭銘購買的筆記本是華碩的普通筆記本,用的是i7 8550u處理器。

筆記本的處理器處理如此大量的數據,不卡死纔怪!

蕭銘看了下時間,已經凌晨三點。

“我需要一組服務器。”蕭銘說道,隨後他躺在牀上繼續思考着語言翻譯和英語學習助手軟件的邏輯性問題。

接下來的幾天,蕭銘在學校很沉默。

除了做必要的數學和理綜練習題以外,大部分時間都在做英語閱讀和語文閱讀。

學校小組的成員都知道蕭銘在水木大學老師離開之後心情不怎麼好,都沒有去打擾他。

幾天之後,蕭銘問老爹要了十萬塊的經費,直接網購了四組英特爾Xeon E5-2603v4芯片組建的服務器主機,並且聯繫人上門安裝。又花錢開通了企業光纖專線。

蕭銘看着白花花的銀子今天時間就花沒了,也是肉痛。

兩個行業絕對是暴利!

一個是英特爾的芯片行業,一個是電信的通訊行業!

安裝服務器的年輕師傅看着幾天沒睡好覺有些滄桑猥瑣的蕭銘,偷偷說道:“建直播網站?小兄弟,現在風聲緊,服務器好還是租用海外的好點,自己建設風險大!”

蕭銘無語,“那你要不要先充個會員?可以一對一。”

師傅嘿嘿笑了兩聲說道:“不了不了。”

第121章 讓人驚愕的廣告第321章 概念性產品第718章 幕後黑手第722章 來了,神經元芯片第779章 《時代》專訪第601章 學生們的成果第473章 再創紀錄第512章 一年一度曬獎金第18章 成績的真實性第446章 莫須有第139章 十秒賣空第633章 進度比想象的快第272章 歐洲的專家小組第34章 報道效應第225章 移動新時代第951章?囚犯,囚犯第581章 終結一個時代第661章 是個小姑娘第32章 轟動江城的小新聞(一)第55章 新年的驚喜(求一切!)第954章?籌備組負責人第508章 慘烈的免疫戰爭第512章 一年一度曬獎金第572章 一無所獲第332章 重聚小鎮第87章 強勢打壓第810章 嚴重內部分歧第418章 彩虹之國第850章 開通航線第239章 我要報名!第316章 不開除留着過年?第711章 華爾街的計劃第253章 給你挖個坑第895章 難民第657章 江城的能源問題第805章 讓他們在驕傲一下第328章 小初不服氣第270章 爭熱搜榜第176章 癌症基因點(一)第352章 改變世界從女人開始第464章 青荷教育第271章 你需要提供證據第541章 盤古醫療基金第346章 沸騰的賣場第154章 定時炸彈第535章 全球矚目第83章 引爆暑假市場 一第466章 虛擬無人商區第759章 超強的物理團隊第95章 入市的考題第254章 深度電池市場第529章 小白鼠白又白,一隻小腿切下來第433章 戰略眼光第485章 沉迷遊戲不可自拔(一)第552章 蕭銘的等待(一)第762章 研究方向第797章?新建航天城第337章 芯片只是上半場第477章 哲學討論第365章 未來農業發展方向遲到的二、三月打賞名單第227章 谷歌感冒了第515章 厲害了,生科實驗室第457章 特斯拉的焦慮第450章 重磅一課第663章 小初的決定第734章 講道理的從來都是拳頭第795章?震撼全球(二)第537章 人類第一次第548章 高難度手術第712章 他已經故去,但是他還活着第241章 蕭校長第630章 不要惹它第502章 領獎領到手軟第529章 小白鼠白又白,一隻小腿切下來第608章 哲學討論,思維是怎樣形成的第666章 思維迸裂第557章 去夏國,去江城(二)第485章 沉迷遊戲不可自拔(一)第255章 來吧,電池革命第356章 小視屏?不,新革命!第50章 老蕭迴歸第734章 講道理的從來都是拳頭第431章 軍令狀第647章 態度第50章 老蕭迴歸第3章“副班長”要講題第573章 垃圾處理也是壟斷第561章高層次人才?第509章 科技的原始驅動力第844章?大浪淘沙第295章 這是真正的壟斷第164章 看看自己的荷包第495章 糧食戰爭第763章 邀請的太遲了第262章 廖同志的考驗第521章 引爆醫學界(二)第60章 給詞語一個向量第553章 蕭銘的等待(二)第409章 改變世界糧食格局