本週精彩圖表
(2023 年,大型語言模型發生了哪些事情? 來源:生成式AI这一年:从群雄乱战到生态确立,世界已被改变-钛媒体官方网站 (tmtpost.com))
前言
最近,我在Facebook的一個社團中偶然看到一位網友詢問,不確定什麼時候 ChatGPT 可以透過對話就生成用戶界面。巧合的是,我最近剛好發現了一個知名的雲端平台正在研究 / 開發一項新服務,這項服務透過自然語言來協助生成前端元件的布局以及程式碼。因此,我們這一期除了持續為大家解釋 OpenAI 官方的提示工程指南,本期的亮點還包括簡單介紹這個讓我眼前一亮的新服務。
希望大家會喜歡這期的內容!
本期內容
OpenAI 官方提示工程指南 - 註釋
提示技巧 2-1:指示模型使用參考文本來回答
提示技巧 2-2:指示模型透過參考文本的引用資訊來回答
大型語言模型的應用介紹
以自然語言來設計你的前端組件
教材生成 - 內容改寫
精彩文章(論文)分享
生成式AI這一年:從群雄亂戰到生態確立,世界已被改變
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 連吳恩達都起來鼓掌的論文
OpenAI 官方提示工程指南 - 註釋
(此段落為 OpenAI 官方提示工程指南的註釋,原文請參考: Prompt engineering - OpenAI API)
策略二
提供參考文本
語言模型在回答問題時,特別是在被詢問關於深奧主題或提供引用和網址時,可能會自信地創造出虛假的答案。就像一張備忘錄可以幫助學生在考試中表現更好一樣,向這些模型提供參考文本可以幫助它們減少捏造答案。
提示技巧 2-1:指示模型使用參考文本來回答
如果我們能夠提供模型一些與目前詢問相關且可靠的資訊,我們就能指導模型利用這些資訊來構建回答。
提示範本:System 使用被三引號分隔的文章來回答問題。如果在文章中找不到答案,則寫下「我無法找到答案」。 User 《插入以三引號分隔的文章》 問題:《在這裡插入問題》
提示範例:
在語言教學領域中,一位使用者可能想要了解某個特定的語言表達或文法規則。在這種情況下,模型可以利用提供的語言學相關文章或教科書內容作為參考,以更精確和深入地回答問題。System 使用被三引號分隔的文章來回答問題。如果在文章中找不到答案,則寫下「我無法找到答案」。 User """ 在中文語句中,時間狀語的位置通常是放在句首,目的是為了設定句子的時間背景。例如:“昨天我去了市場。”除此之外,時間狀語也可以用來強調時間的重要性,如:“我是在昨天收到那封信的。”在某些情況下,時間狀語也可以放在句子的其他位置,但這會改變語氣或強調點。 """ 問題:中文裡,時間狀語應該放在句子的哪個部分?
補充資料:
鑒於所有模型都有有限的上下文窗口,我們需要一種方法來動態查找與被詢問的問題相關的資訊。嵌入式表示(Embeddings)可以用來實現高效的知識檢索。有關如何實施此策略的更多細節,請參閱稍後「使用基於嵌入式表示的搜索來實現高效知識檢索」這一技巧。
(此補充資料提及的技巧本集電子報未提供,請待後續)
提示技巧 2-2:指示模型透過參考文本的引用資訊來回答
這段提示技巧的重點是指導語言模型在回答問題時引用參考文本中的內容。當輸入內容中已經包含了相關知識,我們可以要求模型在其回答中添加引用標記,並同時附上文件中所參照的段落。請注意,在輸出中的引用標記,你也可以通過在所提供的文件內進行字串匹配來進行程式化驗證。
提示範本:Sytem 您將提供一份由三個引號分隔的文件和一個問題。您的任務是僅使用提供的文件來回答問題,並且在你回答問題時,同時附上用於回答問題的引用段落。如果文件中不包含回答這個問題所需的資訊,則簡單寫下:“資訊不足”。如果提供了問題的答案,則必須附上引用段落。使用以下格式列出引用的相關段落({"citation": …})。 User """《在此處插入文件》""" 問題:《在此處插入問題》
提示範例:
系統 您將提供一份由三個引號分隔的文件和一個問題。您的任務是僅使用提供的文件來回答問題,並且在你回答問題時,同時附上用於回答問題的引用段落。如果文件中不包含回答這個問題所需的資訊,則簡單寫下:“資訊不足”。如果提供了問題的答案,則必須附上引用段落。使用以下格式列出引用的相關段落({"citation": …})。 使用者 """ 「漢字是由象形字發展而來,原先用於記錄語言並表達概念。隨著時間的推移,漢字在東亞地區的使用逐漸擴展,包括在日本、韓國、越南等地的書寫系統中也採用。漢字在各地的演變和使用方式各異,但仍保留了許多共同的特徵。」 -摘錄自 <https://zh.wikipedia.org/wiki/漢字> """ 問題: 漢字最初是用來做什麼的?
大型語言模型的應用介紹
使用自然語言來設計前端組件
隨著越來越多的軟體開始使用自然語言與用戶互動,這個領域的創新也越來越多。其中,著名的雲端平台vercel正致力於開發一項新服務,這項服務允許用戶使用自然語言來建立前端組件。您可以在 v0.dev 上找到這項服務。
為了讓大家更加具體地理解這項技術,我們來看一個簡單的例子。
首先,我們在註冊或登入後,可以在下方的對話框中輸入:“我想要一個專業的個人履歷首頁”(而且這項服務支援中文!)。
輸入後,它就會為我們生成相應的畫面及程式碼:
接著,假如我們想增加一個個人事蹟的部分,只需在對話框中輸入:“我想再增加一個個人事蹟的 section”,它便會自動為我們生成第二個版本(v1)的頁面和程式碼:
第三個實驗,假如我們想讓導航欄固定在上方,只需下這樣的指令:“我想讓About/Skills/Experience等這些導航標籤在滾動時固定在上方”。之後,我們就能看到相應的調整:
是不是很神奇呢?
如果您對這個生成結果感興趣,歡迎點擊這個連結體驗一下: 我想要一個專業的個人履歷首頁 | A v0.dev template - v0
透過這個服務,我們可以預見大型語言模型將如何改變我們的互動界面!
教材生成 - 內容改寫
我們這個星期用 夏綠蒂的網(Charlotte's Web)的部分原文,示範如何使用 GPTs 來學習教材生成的其中一個技法: 內容改寫。
很歡迎大家也試用看看~ GPTs 連結在: 這裏。
下面是生成的結果:
工商時間:
為何我們這麽做?
借助GPTs的架構,您的創意可以突破傳統界面設計的限制,直接通過自然語言與用戶互動,讓您的概念更快速地進行驗證,同時,內容改寫在企業中也可以這麽做:
商業報告簡化:將詳細的報告轉化為簡潔的總結,快速傳達關鍵信息。
客戶服務優化:使用AI技術精準回應客戶查詢,提升服務效率。
營銷內容創作:製作引人注目的社交媒體和郵件廣告,迅速吸引目標受眾。
文件簡化:讓法律和技術文檔更易於理解,增強信息可及性。
教育內容定制:根據學習者的需求進行教材改寫,提供個性化的學習體驗。
新聞摘要:從多種來源快速提取新聞要點,提供最新消息。
市場分析:深入分析客戶反饋和市場調研數據,揭示趨勢和觀點,助力制定策略。
很歡迎有興趣學習 GPTs Actions 開發的朋友,立即報名我們免費提供的「 從教材的生成,學習 GPTs 開發 」課前課:
https://docs.google.com/....../1ixDGktMvvi0SKCkqMmpK6U......
精彩文章(論文)分享
生成式AI这一年:从群雄乱战到生态确立,世界已被改变-钛媒体官方网站 (tmtpost.com)
這篇文章講述了2023年AI產業的快速發展與各大科技公司間的競爭局勢。開年,OpenAI以連續發布令人矚目的產品,佔據了AI界的領先地位。到了年中,谷歌雖然相對安靜,但在年底突然發力。與其他公司閉門造車的策略不同,Meta透過發布兩個開源模型,重新獲得關注。文章也反映了大型AI模型生態系的演進,逐漸被視為大公司的遊戲。創業者和風險投資者開始尋找新的領域,但這充滿了風險。例如基於GPT-3的Jasper公司,因ChatGPT的出現而面臨挑戰。文章強調,在當前的AI浪潮中,最大的競爭對手是大型模型供應商,每一代模型都更加強大與通用,讓小型創業項目難以存活。
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 連吳恩達都起來鼓掌的論文,很巧妙的透過數學的洞察,簡化了 RLHF 的另一種 LLM 優化方式。 (消息來源: https://www.facebook.com/andrew.ng.96/posts/7000057516716762)
論文導讀:DPO的原理 DPO是一種新的方法,用於訓練語言模型以符合人類偏好。它與傳統的基於強化學習的方法(如RLHF)不同。在RLHF中,我們首先需要讓人類對語言模型的輸出進行排名,以確定他們的偏好;然後訓練一個獎勵模型(用於評分語言模型的輸出),並使用強化學習來調整語言模型,使其最大化獎勵。這個過程需要兩個變換器網絡,並且對超參數的選擇非常敏感。 DPO的核心思想是,對於給定的語言模型,存在一個特定的獎勵函數,使得該語言模型是最優的。DPO直接訓練語言模型,使其隱含地定義的獎勵函數與人類的排名一致。這樣,就不再需要單獨表示的獎勵函數,只需使用語言模型的變換器,並直接訓練它以優化與RLHF相同的目標。 DPO的步驟 收集人類偏好:收集人類對語言模型輸出的偏好排名。 直接優化:不是像RLHF那樣先訓練一個獎勵模型,而是直接訓練語言模型,使其輸出與人類偏好一致。 使用簡單的分類損失:DPO通過簡單的二元交叉熵目標來優化策略,這使得整個偏好學習流程大大簡化。 實際例子 假設我們正在訓練一個語言模型來生成新聞摘要。我們的目標是讓這個模型能夠產生既準確又吸引人的摘要。 在傳統的RLHF方法中,我們會這樣做: 收集偏好:讓一群人閱讀由語言模型生成的不同新聞摘要,並對它們進行排名,以確定哪些摘要更受喜愛。 訓練獎勵模型:基於這些排名,訓練一個獎勵模型來評估語言模型生成的摘要。 強化學習調整:使用強化學習方法來調整語言模型,使其生成的摘要能夠獲得更高的獎勵。 使用DPO,我們的步驟會變得更簡單: 收集偏好:同樣,我們首先收集人們對不同新聞摘要的偏好排名。 直接優化語言模型:然後,我們直接訓練語言模型,使其生成的摘要與人類的偏好一致。這裡不需要單獨的獎勵模型,也不需要複雜的強化學習過程。 在這個例子中,DPO通過簡化訓練過程,使得語言模型能夠更直接、更有效地學習並符合人類的偏好。