第十六章 論壇定製

bookmark

此時文琦要是能夠打開“蜜蜂輸入法熱q江湖專用版詞庫。myword”,看到裡面的詞組內容的話,他就會明白爲什麼這款蜜蜂輸入****是那麼地“懂他”——在這份詞庫文件裡面,有大量他自己在《熱q江湖》論壇經常使用的句子和詞語!

不過可惜,不像是zip文件簡單改名的skin皮膚文件,馬競對myword詞庫文件進行了嚴格地壓縮加密。這麼做原本是爲了壓縮文本文件大小,方便作爲附件上傳到論壇,不過卻也歪打正着地保護了蜜蜂輸入法的秘密。

隨後文琦就在這個帖子後面的跟帖裡面發現了好多熟悉的id,一個個論壇水王紛紛表示這款蜜蜂輸入法論壇專版實在是太神奇了,非常地“懂他”,按一兩個字母就能把自己想說的話都打出來,實在是太棒了!

“爲什麼你們那些水王都覺得這款蜜蜂輸入法非常好用?秘密全在那個論壇專用版詞庫上面,它裡面應該是把你們經常在論壇上使用的句子都收納進去了,所以纔會按幾個字母就會出你的常用句子。”——曉曉小生

很快就有知識帝出來進行科普了,文琦看到這裡也是輕輕點頭,覺得這位論壇百曉生果然沒有說錯。

再給這篇帖子加精華以後,文琦關閉了《熱q江湖》論壇頁面,登錄了學校的校園bbs,然後第一眼就看見了被頂到置頂帖之下第一位的那個帖子。

標題:《江大學子必備,蜜蜂輸入法江大專版》,點擊數157,回覆102,發帖時間2006-03-18-13:07:56。

“居然發到這兒來了?”帶着疑惑文琦點擊進入這個帖子,發現內容和他之前在《熱q江湖》論壇看到的內容基本上一致,差不多隻是把“熱q江湖”四個字提換成“江x大學”,然後皮膚預覽圖換成帶有校徽、院徽圖案的“江大專用皮膚”,相應的輸入效果圖也換成在校園bbs、校圖書館兩個網頁上面的輸入效果圖片了。

文琦點擊下載了,“蜜蜂輸入法江大專用版。zip”,把裡面的詞庫和皮膚文件解壓出來安裝上。然後在輸入框裡面打字,他發現果然多了不少江大的專用詞彙:校名院名系名班名、課程名、教科書名,都是不用打完完整拼音就出現在了候選詞裡面。

文琦試着打班級輔導員的名字簡稱gxy,也立即看到“顧學玉”三個字出現在候選詞裡面。

想到曉曉小生的分析,文琦試着輸入wq,果然看到“文琦”出現在候選詞列表裡面,再試班上同學的名字,也都能找到。

文琦毫不懷疑,這份“蜜蜂輸入法江大專用版詞庫”裡面一定喪心病狂地把全校師生上萬名字放了進去。

其實他想的簡單了,江大專用詞庫裡面包含的人名超過十萬!不僅包括現在在校的全體師生,而且很多過往任教的老師、歷屆畢業校友的名字也都在裡面,不過他們的詞頻很低,打簡拼時候選詞太多一般要翻頁好多次才能看到。輸入他們姓名的全拼,纔可以更快地看到他們的名字。

這些名字都是從江大校園網內各級服務器上面蒐集來的,因爲江大校園bbs的域名是掛靠在江大的jtu。edu。cn域名下的二級域名,導致蜜蜂發佈器順帶着把整個jtu。edu。cn網站進行了全站下載。

得益於江大力行無紙化辦公,校內各種檔案都有電子版,讓馬競的“蜜蜂發佈器”很輕鬆地就蒐集了大量文本文件,然後提取出了人名和高頻詞、高頻字,然後打包成江大專用詞庫。

而且當這些人名出現在候選詞列表裡面時,它們的顏色還與別人大不一樣的,男生名字的姓都是藍色,女生的姓都是紅色,有男有女的名字則全是綠色。同時本校人的名字下面還會有淺淺一道背景色,顏色與其所在院徽或者校徽的顏色一致。像是文琦就發現自己班所有人名字下面都有淺藍的底色,而一起上高數課認識的理學院同學的名字下面就是淺紫色的,他女友的名字下面有淺紅色背景,那是外語學院的院徽顏色。

這些特殊的標記,都是源自江大詞庫,馬競版的詞庫不只是單純的根據詞頻排序的文本文件,其中還有簡單的關係數據庫的內容。像是“文琦”這個名字,就會和“男”、“能源與動力工程學院”、“核工41班”等詞語發生關聯,而“能源與動力工程學院”又會與“能動學院”、“能動學院院徽”、趙祺(能動學院院長)等詞語發生關聯。

傳統的詞頻排序算法,只能根據詞語累計輸入次數與詞語最近輸入時間這兩個數據調整候選詞排序,而蜜蜂輸入法引入的這些關聯數據可以大大補充單純詞頻排序算法的不足,使得蜜蜂輸入法的輸入效果更加智能更加方便。

在0。9公測版的蜜蜂輸入法裡面,關係排序算法就被應用到人名候選詞的排序裡面。

文琦試着打班上同學名字時,發現幾個姓李姓劉的同學,名字也不需要翻頁,在一大堆劉xx、李xx的候選詞裡面排名非常靠前。其原理就是蜜蜂輸入法的關係排序算法,這些同學和他一個班,都和“能源與動力工程學院”、“核工41班”兩個詞發生關聯,所以詞序被大大提高,也擁有同樣的背景色。

其實學生名字的背景色是經過特殊算法嚴重變形的院徽圖片,完全看不出校徽的形狀,只剩下平均色。只有安裝了“蜜蜂輸入法江大專用版皮膚套裝。skin”文件,取得裡面的校徽圖標素材,輸入法纔會在學生和老師名字下面放置校徽色標記。當然,沒有安裝江大專用詞庫的話,輸入法雖然會根據自動生成的關係數據庫放置校徽色標記以及其他標記,但是出錯率就要高很多了。

因爲是全自動收集整理生成,並且使用了一些暴力破解密碼的手段,這個詞庫裡面其實是包含了一些江大的秘密信息的,比如校長會議的會議記錄以及一些還未公佈的文件的部分內容等。但是因爲詞庫經過詞頻排序,那些秘密信息通常都很少在文件上出現,詞頻很低,並不容易被人發現,因此也沒引起他人注意,馬競自己也並不知道還有這樣的問題。

還要到今年暑期招生的時候,有人發現個別新生的名字可以輕鬆打出,並且顯示樣式也是本校人,不過那人並沒有深究,只是將這件事作爲趣事放到校園bbs上面。

這幾張截圖後來被有心人看到,分析認爲那些被三月份過期江大詞庫標記爲本校人的新生,應該是學校內部招生的結果,由此還引發了一次被稱爲“江大內部招生門”的醜聞事件。

當然,在江大校方看來,則是泄密事件,甚至一度發文禁用蜜蜂輸入法,江大計算機管理中心一度還封堵了蜜蜂輸入法的升級端口。

不過那時候馬競已經升級了蜜蜂輸入法,對用戶詞庫進行了整理,一些詞頻極低的非用戶自創詞被自動清理掉了。同時源自保密文件的一些內容也被刪除了,封殺事件最後也就不了了之了,反倒是因爲封殺事件使得蜜蜂輸入法在江大校園裡面知名度大增,更加流行了。

第180章 天下太平第685章 鏡子第685章 鏡子第521章 懶惰使人進步第466章 聰明手機第1009章 路線第384章 誰賺誰賠第一千一百二十章 露天電影第一千零七十五章 投入和產出第一千一百十四章 還是要吃雞第928章 馬競的作品第920章 茶館第一千五百七十四章 湯老闆第一千二百四十章 老神仙打架,牙膏廠遭殃第496章 節流就去煉油第一千三百三十三章 松鼠的分享第1001章 艾麗西亞的夢第九十九章 中華臨時工協會第199章 神仙與科學第一千四百九十六章 三千年古國第231章 標題黨第735章 珊瑚第177章 刺蝟和狐狸第911章 雄雞一唱天下白第154章 聖誕節的本體第十七章 快速蔓延第706章 蜜蜂的方式第621章 套路啊套路第1005章 會務用品第483章 小飛機第一千五百八十八章 老闆第651章 老虎不吃羊第861章 展覽第一千一百二十三章 刷好感的方法第一千一百二十三章 刷好感的方法第一千四百三十九章 蒙古寶寶第一千二百六十六章 民間飛行員第396章 不同的重點第509章 艾利斯頓校隊第214章 大寶劍第267章 兒子和兒子第一千二百十二章 轉戰國際第一千一百七十五章 賣盤的第868章 加特技第一千二百零六章 斜槓青年第一千三百八十五章 足球啓蒙第一千五百四十一章 萬惡之源第一千二百六十四章 前塵新夢第727章 租機器第478章 蜜蜂表第797章 整蠱專家第一千一百二十章 露天電影第一千五百十九章 槐樹第一千二百十五章 蜜蜂礦機第一千四百四十八章 蜂遊CEO第一千一百八十八章 閃亮登場第777章 驗收第610章 東方威尼斯第877章 兩首歌第四十三章 美夢成針第700章 爲了市場第五十一章 高考第一天第628章 路上第808章 被告第九十四章 到達第961章 壓歲錢第一千一百三十六章 電影和遊戲第259章 聖騎士徐光啓第892章 新德里不思議第248章 二師兄別難過第一千二百八十六章 主播優勢很大第983章 來客第一千四百零五章 尚方令蔡倫第一百二十一章 人民公敵小馬哥第956章 看電影第980章 不務正業第一千四百六十三章 新工作室第一千二百六十八章 百狗奔騰第一千一百三十七章 老面孔新面孔第933章 老司機就是穩第一千一百九十五章 神拳無敵第一千五百十四章 棄權第一千五百五十四章 牛頓的城市第一千三百六十四章 去了火星吃什麼第一千五百九十三章 跳出食物鏈,跳不出生物圈第591章 跳票的C2第一千零九十四章 有攻略第一千四百八十九章 掃塔第789章 觀衆和聽衆第933章 老司機就是穩第933章 老司機就是穩第932章 機器人大賽第九十六章 新家第631章 孩子王第一千三百二十九章 去砸場子啦第一千四百五十一章 中舉第906章 產品經理不是狗第一千三百九十八章 男生女相第413章 粉紅好聲音第839章 兩部電影