獲取選擇文本所在的句子

Eidesen 發布于2019-08-21 17:52 / 2522人閱讀

摘要：原理分析獲取選擇文本通過即可獲得一個對象，再利用即可獲得選擇的文本。所以我們還需要遍歷兄弟和父節點來獲取完整的句子。實現選擇文本先獲取文本，如果沒有則退出獲取首部對于只考慮節點，通過獲取選擇在的前半段內容。

最近收到一個 issue 期望能在劃詞的時候同時保存單詞的上下文和來源網址。這個功能其實很久之前就想過，但感覺不好實現一直拖延沒做。真做完發現其實并不復雜，完整代碼在這里，或者繼續往下閱讀分析。

原理分析 獲取選擇文本

通過 window.getSelection() 即可獲得一個 Selection 對象，再利用 .toString() 即可獲得選擇的文本。

錨節點與焦節點

在 Selection 對象中還保存了兩個重要信息，anchorNode 和 focusNode，分別代表選擇產生那一刻的節點和選擇結束時的節點，而 anchorOffset 和 focusOffset 則保存了選擇在這兩個節點里的偏移值。

這時你可能馬上就想到第一個方案：這不就好辦了么，有了首尾節點和偏移，就可以獲取句子的頭部和尾部，再把選擇文本作為中間，整個句子不就出來了么。

當然不會這么簡單哈。

強調一下

一般情況下，anchorNode 和 focusNode 都是 Text 節點（而且因為這里處理的是文本，所以其它情況也會直接忽略），可以考慮這種情況：

Saladict is awesome!

如果選擇的是“awesome”，那么 anchorNode 和 focusNode 都是 is awesome!，所以取不到前面的 “Saladict”。

另外還有嵌套的情況，也是同樣的問題。

Saladict is awesome!

所以我們還需要遍歷兄弟和父節點來獲取完整的句子。

遍歷到哪？

于是接下就是解決遍歷邊界的問題了。遍歷到什么地方為止呢？我的判斷標準是：跳過 inline-level 元素，遇到 block-level 元素為止。而判斷一個元素是 inline-level 還是 block-level 最準確的方式應該是用 window.getComputedStyle()。但我認為這么做太重了，也不需要嚴格的準確性，所以用了常見的 inline 標簽來判斷。

const INLINE_TAGS = new Set([
  // Inline text semantics
  "a", "abbr", "b", "bdi", "bdo", "br", "cite", "code", "data", "dfn", "em", "i",
  "kbd", "mark", "q", "rp", "rt", "rtc", "ruby", "s", "samp", "small",
  "span", "strong", "sub", "sup", "time", "u", "var", "wbr"
])

原理總結

句子由三塊組成，選擇文本作為中間，然后遍歷兄弟和父節點獲取首尾補上。

實現 選擇文本

先獲取文本，如果沒有則退出

const selection = window.getSelection()
const selectedText = selection.toString()
if (!selectedText.trim()) { return "" }

獲取首部

對于 anchorNode 只考慮 Text 節點，通過 anchorOffset 獲取選擇在 anchorNode 的前半段內容。

然后開始補全在 anchorNode 之前的兄弟節點，最后補全在 anchorNode 父元素之前的兄弟元素。注意后面是元素，這樣可以減少遍歷的次數，而且考慮到一些被隱藏的內容不需要獲取，用 innerText 而不是 textContent 屬性。

let sentenceHead = ""
const anchorNode = selection.anchorNode
if (anchorNode.nodeType === Node.TEXT_NODE) {
  let leadingText = anchorNode.textContent.slice(0, selection.anchorOffset)
  for (let node = anchorNode.previousSibling; node; node = node.previousSibling) {
    if (node.nodeType === Node.TEXT_NODE) {
      leadingText = node.textContent + leadingText
    } else if (node.nodeType === Node.ELEMENT_NODE) {
      leadingText = node.innerText + leadingText
    }
  }

  for (
    let element = anchorNode.parentElement;
    element && INLINE_TAGS.has(element.tagName.toLowerCase()) && element !== document.body;
    element = element.parentElement
  ) {
    for (let el = element.previousElementSibling; el; el = el.previousElementSibling) {
      leadingText = el.innerText + leadingText
    }
  }

  sentenceHead = (leadingText.match(sentenceHeadTester) || [""])[0]
}

最后從提取句子首部用的正則是這個

// match head                 a.b is ok    chars that ends a sentence
const sentenceHeadTester = /((.(?![ .]))|[^.?!。？！…
])+$/

前面的 ((.(?![ .])) 主要是為了跳過 a.b 這樣的特別是在技術文章中常見的寫法。

獲取尾部

跟首部同理，換成往后遍歷。最后的正則保留了標點符號

// match tail                                                    for "..."
const sentenceTailTester = /^((.(?![ .]))|[^.?!。？！…
])+(.)3{0,2}/

壓縮換行

拼湊完句子之后壓縮多個換行為一個空白行，以及刪除每行開頭結尾的空白符

return (sentenceHead + selectedText + sentenceTail)
  .replace(/(^s+)|(s+$)/gm, "
") // allow one empty line & trim each line
  .replace(/(^s+)|(s+$)/g, "") // remove heading or tailing

完整代碼

const INLINE_TAGS = new Set([
  // Inline text semantics
  "a", "abbr", "b", "bdi", "bdo", "br", "cite", "code", "data", "dfn", "em", "i",
  "kbd", "mark", "q", "rp", "rt", "rtc", "ruby", "s", "samp", "small",
  "span", "strong", "sub", "sup", "time", "u", "var", "wbr"
])

/**
* @returns {string}
*/
export function getSelectionSentence () {
  const selection = window.getSelection()
  const selectedText = selection.toString()
  if (!selectedText.trim()) { return "" }

  var sentenceHead = ""
  var sentenceTail = ""

  const anchorNode = selection.anchorNode
  if (anchorNode.nodeType === Node.TEXT_NODE) {
    let leadingText = anchorNode.textContent.slice(0, selection.anchorOffset)
    for (let node = anchorNode.previousSibling; node; node = node.previousSibling) {
      if (node.nodeType === Node.TEXT_NODE) {
        leadingText = node.textContent + leadingText
      } else if (node.nodeType === Node.ELEMENT_NODE) {
        leadingText = node.innerText + leadingText
      }
    }

    for (
      let element = anchorNode.parentElement;
      element && INLINE_TAGS.has(element.tagName.toLowerCase()) && element !== document.body;
      element = element.parentElement
    ) {
      for (let el = element.previousElementSibling; el; el = el.previousElementSibling) {
        leadingText = el.innerText + leadingText
      }
    }

    sentenceHead = (leadingText.match(sentenceHeadTester) || [""])[0]
  }

  const focusNode = selection.focusNode
  if (selection.focusNode.nodeType === Node.TEXT_NODE) {
    let tailingText = selection.focusNode.textContent.slice(selection.focusOffset)
    for (let node = focusNode.nextSibling; node; node = node.nextSibling) {
      if (node.nodeType === Node.TEXT_NODE) {
        tailingText += node.textContent
      } else if (node.nodeType === Node.ELEMENT_NODE) {
        tailingText += node.innerText
      }
    }

    for (
      let element = focusNode.parentElement;
      element && INLINE_TAGS.has(element.tagName.toLowerCase()) && element !== document.body;
      element = element.parentElement
    ) {
      for (let el = element.nextElementSibling; el; el = el.nextElementSibling) {
        tailingText += el.innerText
      }
    }

    sentenceTail = (tailingText.match(sentenceTailTester) || [""])[0]
  }

  return (sentenceHead + selectedText + sentenceTail)
    .replace(/(^s+)|(s+$)/gm, "
") // allow one empty line & trim each line
    .replace(/(^s+)|(s+$)/g, "") // remove heading or tailing 

}

【完】

GPU云服務器云服務器 java選擇所在城市 js獲取類下的文本框 php獲取ip所在地文本選擇功能

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/90147.html

LSTM分類相關

摘要：而檢驗模型用到的原材料，包括薛云老師提供的蒙牛牛奶的評論，以及從網絡購買的某款手機的評論數據見附件。不同行業某些詞語的詞頻會有比較大的差別，而這些詞有可能是情感分類的關鍵詞之一。這是由于文本情感分類的本質復雜性所致的。文本情感分類--傳統模型（轉） showImg(https://segmentfault.com/img/bVKjWF?w=2192&h=534); 傳統的基于情感詞典...

MartinHan 2019-07-25 11:36 評論0 收藏0
編輯器之神-VIM

摘要：在這天地間，流傳這兩大神器的故事據說是神的編輯器，而是編輯器之神。正所謂，工欲善其事必先利其器。今天就和大家分享一下關于編輯器之神的傳說。主要用于用來編寫和查看文本文件。在這天地間，流傳這兩大神器的故事：據說Emacs是神的編輯器，而Vim是編輯器之神。正所謂，工欲善其事,必先利其器。今天就和大家分享一下關于編輯器之神Vim的傳說。一、Vim的歷史 1.下圖是關于幾款主流編輯器...

imingyu 2019-06-28 10:14 評論0 收藏0
關于深度學習中的注意力機制，這篇文章從實例到原理都幫你參透了

摘要：本文以機器翻譯為例，深入淺出地介紹了深度學習中注意力機制的原理及關鍵計算機制，同時也抽象出其本質思想，并介紹了注意力模型在圖像及語音等領域的典型應用場景。最近兩年，注意力模型（Attention Model）被廣泛使用在自然語言處理、圖像識別及語音識別等各種不同類型的深度學習任務中，是深度學習技術中最值得關注與深入了解的核心技術之一。本文以機器翻譯為例，深入淺出地介紹了深度學習中注意力機制...

iliyaku 2019-04-25 18:20 評論0 收藏0