avatar華田 Watin

Free AI web copilot to create summaries, insights and extended knowledge, download it at here

2065

Abstract

</p><p id="c80f">Chapter 5 由 Hargid 帶動,頭半出現 “gringotts”,講述 Hargid 帶 Harry Potter 去 Gringotts 攞錢,後半不斷出現 “wand”,講到 Hargid 帶 Harry 到到 Diagonal Alley 買魔法杖。</p><p id="f0df">Chatper 6 一開始出現 “ platform” 呢個字,就係大家期待已久嘅 9 又 3/4 月台喇,中段非常密集地出現 Harry 未來嘅好拍擋 “ron”,再後少少就出現 “hermione”,仲有 “malfoy” 同 “neville”,即係 Harry 遇上佢未來嘅幾個同學喇。</p><p id="4bc5">我已經將幅圖放咗喺 <a href="https://drive.google.com/file/d/10uZw7JJW_2CWtr6QjuhQkKci6qyvZNIr/view?usp=sharing">Google Drive</a>,大家有興趣可以 download 落嚟再放大慢慢睇喇,睇吓 “hat”, “broom”, “quidditch”, “snape”, “quirrell” 等等嘅字幾時第一次出現,又喺邊個 chatper 最密集,話唔定就可以講得晒整個故事出嚟喇。</p><h1 id="a93d">Dispersion Plot 其他用途</h1><p id="2f91">Dispersion Plot 除咗可以用嚟睇劇情,仲有好多唔同用途,例如集中睇 he / she / I / you / they 等等嘅 pronoun,可以睇到佢小說嘅視角、男女出現嘅頻率,又或者可以抽取整本書嘅形容詞,就可以睇到整本小說氣氛嘅變化等等,幾有趣架!</p><p id="a33e">例如只睇 ‘we’, ‘they’, ‘he’, ‘she’ 的話,大家會發現 1) HarryPotter 係一本多用第三身視角描述 (they) 多於第一身對話 (we) 嘅小說;2) Harry Potter 入面對男性嘅描述 (he) 要遠比女性 (she) 多。</p><p id="f260">唔知大家平時又有無留意到呢?</p><figure id="1b7e"><img src="https://cdn-images-1.readmedium.com/v2/resize:fit:800/1*g3yOQBa2FjIGQP2nZiyTmQ.png"><figcaption></figcaption></figure><h1 id="fbba">我哋又可以點圖像化人同人嘅「親密度」呢?</h1><p id="fd21">下期會講吓有咩方法可以圖像化角色與角色間嘅關係,我哋知道整本 Book 1 都係圍住 Harry 嚟轉的,但係對 Harry 嚟講咩角色同佢又最多交流呢?</p><p id="feb5">如果我哋攞起 Harry,咩角色又同 Dumbledore 最多互動呢?係 Mcgongall、 Hargid 定係 Snape 呢?</p><p id="a9e5">下篇同大家分享啦。</p><div id="f7c7" class="link-block"> <a href="https://medium.com/%E8%8F%AF%E7%94%B0%E5%A3%AB%E5%A4%9A/wordle-%E7%94%A8%E5%93%AA%E5%B9%BE%E7%B5%84%E5%AD%97%E9%96%8B%E5%A7%8B%E6%9C%80%E5%A5%BD%E5%91%A2-%E5%A6%82%E4%BD%95%E5%8F%AF%E4%BB%A5%E7%A9%A9%E5%AE%9A%E5%9C%B0-4-%E6%AD%A5%E5%AE%8C%E6%88%90%E5%91%A2-1-1c55f17db822"> <div> <div> <h2>Wordle 用哪幾組字開始最好呢?如何可以穩定地 4 步完成呢?(1)</h2> <div><h3>如何穩定地在 4 步內完成猜字呢? 如果我隨意以一個字開始 (例如 audio) ,下一個最應該試的字是什麼呢? 什麼字母在什麼位置 (slot) 出現頻率最高呢? 如果只選一個字開始,應該選哪個呢? 如果你都對以上 4…</h3></div> <div><p>medium.com</p></div> </div> <div> <div style="background-image: url(https:// # Options miro.readmedium.com/v2/resize:fit:320/1*g3OqsyczbhAGphhpiO7kpA.png)"></div> </div> </div> </a> </div><div id="21c4" class="link-block"> <a href="https://medium.com/%E8%8F%AF%E7%94%B0%E5%A3%AB%E5%A4%9A/wordle-%E7%94%A8%E5%93%AA%E5%B9%BE%E7%B5%84%E5%AD%97%E9%96%8B%E5%A7%8B%E6%9C%80%E5%A5%BD%E5%91%A2-%E5%A6%82%E4%BD%95%E5%8F%AF%E4%BB%A5%E7%A9%A9%E5%AE%9A%E5%9C%B0-4-%E6%AD%A5%E5%AE%8C%E6%88%90%E5%91%A2-%E4%B8%80%E5%80%8B-data-science-%E7%9A%84%E5%B0%8F%E5%98%97%E8%A9%A6-2-3d05c7a3075e"> <div> <div> <h2>Wordle 用哪幾組字開始最好呢?如何可以穩定地 4 步完成呢?一個 data science 的小嘗試(2)</h2> <div><h3>不過這只是故事的一半,在試完第一個字之後,下一個應該試的字是什麼呢?我們有什麼組合拳可以讓我們穩定地在 4 步內完成呢?</h3></div> <div><p>medium.com</p></div> </div> <div> <div style="background-image: url(https://miro.readmedium.com/v2/resize:fit:320/1*uoyv7scZGkPgPqcmK2ulmg.png)"></div> </div> </div> </a> </div><div id="208e"><pre><span class="hljs-symbol">2021 </span>年開始 Medium 只會發佈部份文章,想知最新銀行 insider insight,就要訂閱我 Patreon(patreon.<span class="hljs-keyword">com</span>/watin) 喇!</pre></div><div id="58aa"><pre><span class="hljs-symbol">2021 </span>年 <span class="hljs-number">8</span> 月 Medium 再次改制,讀者可以選擇將一半既 Medium 會費撥繳至你喜歡既作者。如果你想喺 Medium 上面支持我,可以去以下呢條 link (watin.medium.<span class="hljs-keyword">com</span>/membership)登記做會員哦!</pre></div><div id="ff7a"><pre>華田銀行 FB: facebook.com/WatinResearch 華田銀行 IG: https:<span class="hljs-regexp">//</span>www.instagram.com<span class="hljs-regexp">/bank_of_watin/</span> 華田銀行 HKET 專欄: https:<span class="hljs-regexp">//</span>wealth.hket.com<span class="hljs-regexp">/sraw116/</span>華田銀行</pre></div><div id="a20e"><pre>關於華田: 兒時夢想做i-banker,結果做了bank worker,還要是retail那種。過去在各大小銀行不同部門流徙,叫人借錢、催人還錢、審批貸款、出股票<span class="hljs-keyword">app</span>、出借錢<span class="hljs-keyword">app</span>、出信用卡、廣告策劃、銷售管理、分行佈點、生物認證、電子排隊、機器學習、敏捷開發,到現在還未安定下來。不懂財經、不懂經濟,只想談一下「銀行」這回事。</pre></div></article></body>

點樣可以將 Harry Potter 劇情用一張圖概括出嚟呢?一個 NLTK 小實驗 (1)

最近同田太喺度研究 data science 喺人文學科嘅應用,先知原來近年人文學科好熱烈喺度搞 “digital humanities”,基礎如 OCR 啲古籍、中級少少將文本數據化、再到高級少少做吓啲 visualization、再勁啲就有 style analysis、authorship classifier、network analysis 等等,都幾百花齊放的。

咁到底會唔會只係瀨尿牛丸,我就唔夠 knowledge 去 comment 喇,不過有啲應用都幾有趣的,可以為本來基本係靠 feel 嘅文本分析變成一啲數據化、可視化嘅資訊。

今次會用 Harry Potter Book 1 配合 Python 做 natural language processing (NLP) 最常用嘅 package NLTK (Natural Language Toolkit) 分享 2 個小應用,今篇會講將劇情圖像化嘅方法,將如果只可以用一張圖,我哋可以點樣 summarize 一整本書嘅情節呢?

下一篇就會講點樣繼續只用一張圖下,顯示各個小說人物之間嘅關聯度,對 Harry Potter 或者 data science 嘅網友可以留意哦。

頭盔一個,以下方法絕對不完美,方法亦唔高明,大家就當係喺傳統文本方式以外,加多一層佐証去了解文本吧。

如果只可以用一張圖,我哋可以點樣 summarize 一整本書嘅情節呢?

Harry Potter Book1 神秘的魔法石總共有 17 個 chapter,而要快速總結呢 17 個 chapter,其中一個方法就係將書中嘅關鍵字抽出嚟,再將佢哋出現嘅頻率標出嚟,做成一個 dispersion plot,例如咁樣…

喺手機睇呢幅圖會有啲細,我試吓集中頭 6 個 Chapter 畀大家睇吓:

咁就睇到啲好有趣嘅嘢喇,例如 Chapter 1 一開始集中出現 “dursley” 呢個字,主要描述 Harry Potter 呀姨一家嘅情況,跟住 Chapter 1 後半就非常密集地出現 “professor”, “mcgongall”, “dumbledore”, “hargid”,描述佢哋 3 個抱住仲要嬰兒嘅 Harry Potter 去到 The Dursley 嘅門口,交帶 The Dursley 將 Harry Potter 撫養成人。

喺 Chapter 2 同 Chapter 3 再無再出現 Hogwarts 一眾教職員,但係係非常密集地出現 “uncle”, “aunt”, “dudley”, “vermon”, “petunia” 一眾 the Dursley family 嘅名,然後貫穿整本書 “harry” 就不斷出現,代表 Harry 已經長大,描述佢喺 the Dursley family 嘅情況,同埋 Hogwarts 不斷咁寄信邀請 Harry 入學喇。

Chapter 4 係一個相對短嘅一章,Hargid 再次出場,同 Dursley 一家有好多一齊出現嘅時間,故事亦第一次出現 “wizard” 同 “hogwarts” 呢 2 個字,故事講到 Hargid 去到 Dursley 屋企準備接走 Harry。要佢跟隨父母步伐成為一個 wizard。

Chapter 5 由 Hargid 帶動,頭半出現 “gringotts”,講述 Hargid 帶 Harry Potter 去 Gringotts 攞錢,後半不斷出現 “wand”,講到 Hargid 帶 Harry 到到 Diagonal Alley 買魔法杖。

Chatper 6 一開始出現 “ platform” 呢個字,就係大家期待已久嘅 9 又 3/4 月台喇,中段非常密集地出現 Harry 未來嘅好拍擋 “ron”,再後少少就出現 “hermione”,仲有 “malfoy” 同 “neville”,即係 Harry 遇上佢未來嘅幾個同學喇。

我已經將幅圖放咗喺 Google Drive,大家有興趣可以 download 落嚟再放大慢慢睇喇,睇吓 “hat”, “broom”, “quidditch”, “snape”, “quirrell” 等等嘅字幾時第一次出現,又喺邊個 chatper 最密集,話唔定就可以講得晒整個故事出嚟喇。

Dispersion Plot 其他用途

Dispersion Plot 除咗可以用嚟睇劇情,仲有好多唔同用途,例如集中睇 he / she / I / you / they 等等嘅 pronoun,可以睇到佢小說嘅視角、男女出現嘅頻率,又或者可以抽取整本書嘅形容詞,就可以睇到整本小說氣氛嘅變化等等,幾有趣架!

例如只睇 ‘we’, ‘they’, ‘he’, ‘she’ 的話,大家會發現 1) HarryPotter 係一本多用第三身視角描述 (they) 多於第一身對話 (we) 嘅小說;2) Harry Potter 入面對男性嘅描述 (he) 要遠比女性 (she) 多。

唔知大家平時又有無留意到呢?

我哋又可以點圖像化人同人嘅「親密度」呢?

下期會講吓有咩方法可以圖像化角色與角色間嘅關係,我哋知道整本 Book 1 都係圍住 Harry 嚟轉的,但係對 Harry 嚟講咩角色同佢又最多交流呢?

如果我哋攞起 Harry,咩角色又同 Dumbledore 最多互動呢?係 Mcgongall、 Hargid 定係 Snape 呢?

下篇同大家分享啦。

2021 年開始 Medium 只會發佈部份文章,想知最新銀行 insider insight,就要訂閱我 Patreon(patreon.com/watin) 喇!
2021 8 月 Medium 再次改制,讀者可以選擇將一半既 Medium 會費撥繳至你喜歡既作者。如果你想喺 Medium 上面支持我,可以去以下呢條 link (watin.medium.com/membership)登記做會員哦!
華田銀行 FB: facebook.com/WatinResearch
華田銀行 IG: https://www.instagram.com/bank_of_watin/
華田銀行 HKET 專欄: https://wealth.hket.com/sraw116/華田銀行
關於華田:
兒時夢想做i-banker,結果做了bank worker,還要是retail那種。過去在各大小銀行不同部門流徙,叫人借錢、催人還錢、審批貸款、出股票app、出借錢app、出信用卡、廣告策劃、銷售管理、分行佈點、生物認證、電子排隊、機器學習、敏捷開發,到現在還未安定下來。不懂財經、不懂經濟,只想談一下「銀行」這回事。
Mathematics
Data Science
Hong Kong
中文
NLP
Recommended from ReadMedium