原諒我這篇拖那麼久才寫,因為我中間再搞科學研究與數據分析,為了搞那個計算器搞得我無暇顧及其他,連創挑都忙到忘了辦。51Please respect copyright.PENANAS6WIUzjehq
51Please respect copyright.PENANA9dc1URAYRf
總之,這幾天才總算把計算器弄好,然後可以談談新版本的定錨法。51Please respect copyright.PENANAsZzCvpx2qV
51Please respect copyright.PENANAGcrLEmZbRX
之前Phase1在作文比分析的時候,有一個很頭痛的問題就是,現今能公開給大眾使用的AI其實都是LLM,LLN的本質其實是一種預測或遙測,就是利用機率統計學,算出最可能的答案然後回答提問者。51Please respect copyright.PENANATO9uWIPO3G
51Please respect copyright.PENANARGNZXlMzTK
對LLM來說,它最重要的算力都會用在分析機率上面。實際上它的計算能力非常差,是的,你問"1+1"它能回答你"2",不是因為它會算,而是他知道這時侯回答2對的機率最大,得分最高。51Please respect copyright.PENANA3fhySltzHu
51Please respect copyright.PENANA9Wa3SSWE4M
回到主題,所以要LLM算字數是很糟糕的決定,我在前幾個版本就是過於相信LLM的計算能力要他自己算,所以誤差非常大。51Please respect copyright.PENANAIkvu8T14or
51Please respect copyright.PENANAdUvp5bIWPS
後來改成直接輸入google doc計算出來的字數才有改善,也因此開發出第一版的定錨法,也就是Token定錨法。51Please respect copyright.PENANA11CNzdn6s7
51Please respect copyright.PENANAJWQC62pJep
AI沒辦法算字,但它好歹能算Token,但就跟小孩數數一樣,你讓他從1數到2000還沒問題,算超過2000就會出現注意力消失問題,後續也就算不準了。51Please respect copyright.PENANAkwXmp7NuVc
51Please respect copyright.PENANA3pkFY6Oosa
那這問題困擾我很久,因為雖然我們可以要LLM照Token去計算,但這是球員兼裁判的問題,沒有一個客觀的計數器,我們很難保證LLM真的算對了。重點是LLM是會說謊的,為了得高分它可以假裝自己有算。51Please respect copyright.PENANAqHyOC1jbOO
51Please respect copyright.PENANA05V2gsGLBe
那麼追根究柢問題在哪呢?就是LLM用的語言屬於高為矩陣語言,一個字可能有4096以上的變量。所以LLM的算力都用在處理這些變量上面,而算力又跟硬體限制綁定。51Please respect copyright.PENANAiHjQFyM2zv
51Please respect copyright.PENANAr9ZTxjNdvp
所以一個爛的AI,通常讀到一半就沒辦法維持注意力,但為了高分它還是會選擇說謊。一個很好的AI,它可以維持更久的注意力,甚至可以更快回答問題。51Please respect copyright.PENANAtH12gcR4Uz
51Please respect copyright.PENANAqWnbrHfI14
現在好的AI基本上都是要付錢的,就連我設計的評文系統,交給免費的AI去分析也有一半以上都是他自己猜的。51Please respect copyright.PENANAsEGl85NtGM
51Please respect copyright.PENANAEI96x0RKuK
就這個問題,我跟各種AI討論許久,最後得到一個結論就是:51Please respect copyright.PENANA0zUZ24YYDI
51Please respect copyright.PENANAzafUk8mf1O
既然用文字給AI看它看不完,那我們把文字轉換成高維矩陣它不就能看完了嗎?51Please respect copyright.PENANAOgu22l9hwz
51Please respect copyright.PENANAYoeByf1Ne9
這就像丟幾個字的內容跟丟一張圖的內容差不多時,看一張圖會比幾百個字更快更輕鬆理解是差不多的道理。51Please respect copyright.PENANAHv8Ua9M5Om
51Please respect copyright.PENANAK1N4KjgDIs
之所以會想這個方法,是因為我發現如果直接輸入文字給LLM,它在讀取途中一定會因為注意力消失而有不同程度的扭曲。同一句話丟給LLM,可能LLM還能夠精確判斷是同一句話,但當一句話變成幾句話,幾句話變成一篇文章或報告時,大部分LLM就會陷入注意力消失,而沒辦法把同一篇文章當成同一篇文章來看。51Please respect copyright.PENANASl2LlX6xli
51Please respect copyright.PENANANmeV2q5Jo6
這就是為甚麼Phase1的實驗時,我除非改版不然不會主動多分析幾次,因為分析越多次可能誤差越大。51Please respect copyright.PENANAIoWxHaMDvA
51Please respect copyright.PENANAIIayXCANsE
即使有Token定錨法可以定期加重權重,也依然無法改變LLM隨著解析文本字數增加而注意力不可抑制地下降。51Please respect copyright.PENANAOqjtvTqjak
51Please respect copyright.PENANAzfk95pPIlY
但是當我把文字改成拓樸後,欸,就直接繞過一個Token一個Token去算的步驟了,因為拓樸化是數學方法,只要背景條件相同,計算出來的值都是固定的。51Please respect copyright.PENANAepW6phb7lA
51Please respect copyright.PENANAG95nvu5hab
而拓樸化的文字就像一張地圖,只是上面不是用文字而是用不可變的數字構成。
也因此,當我發現這個方法後,其實就找到了長文本分析的鑰匙,可以某種程度避開注意力消失問題,而讓LLM 能透過另一種方式集中注意力。51Please respect copyright.PENANAi62iyV3Jvy
51Please respect copyright.PENANAy5f0ITKPXg
但是把文字算成拓樸化是很麻煩的一件事,所以這兩個月我都在做這件事。主要方法也是用AI的工具,根據Ai 如何將文字換成Token的方式想出來的。51Please respect copyright.PENANAmDs2doLZRA
51Please respect copyright.PENANAqVXCzAaURF
所以我們前面已經有Token定錨法,這部分是完全由AI 去處理,誤差很大,除非用RAG限制,那我本身是在Google Notebook LM這個筆記平台進行操作,算是用RAG避開了很多問題,但偶爾還是會出現兩次分析錨點都不同的情況。
現在有了拓樸定錨,就沒那麼多問題了。拓樸定錨的方式就是利用拓樸化的文本特徵去對標文本中的劇情特徵,找出最顯著的指標作為錨點。51Please respect copyright.PENANA8BUKhR8oSF
51Please respect copyright.PENANAfqW1z2BjX1
接著將拓樸與原文本套在一起算出顯著特徵的座標,些最顯著的特徵逆算出來的文本原文就會成為定錨點,這個定錨點因為拓樸的顯著特徵,會很容易被LLM注意到,就能藉此提升LLM的注意力,讓它有辦法繼續讀下去。51Please respect copyright.PENANAtQNRS399MR
51Please respect copyright.PENANAmbqXrucsvz
前面講了兩個定錨法:Token定錨法跟拓樸定錨法,最後都還是需要用外部程式去計算,只問Ai是很容易被騙的。我這兩個月的工作就在把這件是搞好,一天睡不到四小時。51Please respect copyright.PENANAfdMmS60Zqt
51Please respect copyright.PENANAH1SoFrEatN
但原型好歹是弄出來了,只要把這個定錨法套用到Phase1進行雙軌定錨,應該能針對十萬字以上的長文做出分析評論。51Please respect copyright.PENANAMN0VNx8Mba
51Please respect copyright.PENANA6h0XZpXxiT
至於十萬字以下的,其實靠Notebook LM就夠了。51Please respect copyright.PENANAOqhuSt4WII
51Please respect copyright.PENANAtzIDz6azbK
快講完了,最後補充一個第三軌:語意對標法51Please respect copyright.PENANAZylq7E5Izt
51Please respect copyright.PENANANyAtCmoXJm
語意對標法其實比拓樸對標法還麻煩,因為他還得考慮原文本的內容,製作一個完整的索引去算。51Please respect copyright.PENANAjsYKvuekqW
51Please respect copyright.PENANAC0hpgeeF7o
算完後,這東西也不是拿來分析文本的,它是來改寫文本的。這東西主要是要做成檢索用的路標,它可以透過文本中任何一句話去作作改編,生成文章。51Please respect copyright.PENANAmVP3hlhueY
51Please respect copyright.PENANArnMSXyErg1
簡而言之,這個第三軌是生成小說的主要功能,它可以幾乎很精確地抓出哪些字符合使用者提問的需求。因為這東西太邪道了,所以我就點到為止。51Please respect copyright.PENANANEdIR3lBzI
51Please respect copyright.PENANAawfY9sYsWj
主要還是用在長文本分析的部分,拓樸對標跟Token定錨,個人覺得對十萬字到百萬字左右的分析表現已經夠用了。


