runeとUnicodeと文字数と

571 Views

October 02, 24

#Go言語 #Unicode #文字列処理 #rune #uniseg

スライド概要

ktnyt

@nanogram

スライド一覧

アジャイル大好き

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

AI境界値分析で回帰テスト作成を自動化してみる

ktnyt 0.9K

ioのテストをうまくやりたい

ktnyt 143

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

ue4 ue5 ue-beginner

エピックゲームズジャパン 1.7M

Unreal Engine5 Lumenの仕組みと肝心なところ

ue5 ue-rendering ue-lumen

エピックゲームズジャパン 1.5M

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

ue5 unreal engine ue-rendering

エピックゲームズジャパン 1.3M

Meta XR SDK(V66-74)でQuestアプリを開発

spatial anchor unity quest pro shaperecognizeractivatestate oculus integration transformfeaturestateprovider building blocks transformrecognizeractivestate ovrsemanticclassification jointdeltaprovider ovrscenemanager jointvelocityactivestate オクルージョン sequenceactivestate scene manager ambisonic depth api metaxraudiosource playerlocomotor meta xr sdk quest3 ovrplayercontroller マルチモーダル meta haptics studio direct touch ui meta xr haptics sdk ovrspatialanchor ovrtrackedkeyboard hapticclipplayer fingerfeaturestateprovider hapticclip ワイドモーションモード wmm mruk mr utility kit voice sdk jointrotationactivestate meta horizon os ui set asw application spacewarp ovr metrics tool unityscene manager colocation discovery コロケーション mx ink passthrough camera api hand tracking microgestures webcamtexturemanager passthroughcamerautils cameraviewermanager hand pose selector recorder

あうぜん 1.2M

各ページのテキスト

runeとUnicodeと文字数と文字ってなんだよ......ってなる話 by ことね@_ktnyt @ Go勉強会 by bitkey × voicy

自己紹介ことね（板谷美玲）@_ktnyt LAPRAS株式会社 Webエンジニア io.Readerをすこれの人趣味プログラミング、ドライブ、音楽

文字数、数えられますか？

これらの文字列は何文字でしょう？ 1: A 2: あ 3: ㌖ 4: 5: 6: 7:

[beta]

試してみよう！
package main
import "fmt"
func main() {
ss := []string{
"A",
" ",
" ",
" ",
" ",
" ",
" ",
}
fmt.Println("| s | len(s) |")
fmt.Println("|:-:|-------:|")

あ
㌖

}

for _, s := range ss {
fmt.Printf("| %s | %d |\n", s, len(s))
}

結果 s len(s) A 1 あ 3 ㌖ 3 4 13 17 25

なんで？ Goにおける len(<string>) の仕様 Call Argument type Result len(s) string type [n]T, *[n]T []T map[K]T chan T type parameter string length in bytes array length (== n) slice length map length (number of defined keys) number of elements queued in channel buffer see below cap(s) [n]T, *[n]T []T chan T type parameter array length (== n) slice capacity channel buffer capacity see below from: https://go.dev/ref/spec#Length_and_capacity

https://go.dev/ref/spec#Length_and_capacity

よろしい、ならばruneだ Rune literals A rune literal represents a rune constant, an integer value identifying a Unicode code point. A rune literal is expressed as one or more characters enclosed in single quotes, as in 'x' or '\n'. Within the quotes, any character may appear except newline and unescaped single quote. A single quoted character represents the Unicode value of the character itself, while multi-character sequences beginning with a backslash encode values in various formats. from: https://go.dev/ref/spec#Rune_literals

https://go.dev/ref/spec#Rune_literals

10.

Unicode Code Point? Any value in the Unicode codespace; that is, the range of integers from 0 to 0x10FFFF. from: https://www.unicode.org/glossary/#code_point

https://www.unicode.org/glossary/#code_point

11.

与太話 UnicodeとUTF-8/UTF-16 Unicodeの文字空間である 0x0-0x10FFFF をエンコードするのに必要なのは 21 bit で、8N bit (N byte) のサイズを持つ変数で表現するのには最低 24 bit、実装上殆どの場合 32 bit が用いられる。UTF-8 は Unicode の Code Point を 8 bit 単位（実際にはプレフィックスがつくので厳密には 8bit ではないが）、UTF-16 は 16 bit 単位（同上）の Code Unit で保持する。

12.

[beta]

runeで数えてみよう
package main
import "fmt"
func main() {
ss := []string{
"A",
" ",
" ",
" ",
" ",
" ",
" ",
}
fmt.Println("| s | len(s) | len([]rune(s)) |")
fmt.Println("|:-:|-------:|---------------:|")

あ
㌖

}

for _, s := range ss {
fmt.Printf("| %s | %d | %d |\n", s, len(s), len([]rune(s)))
}

13.

結果 s len(s) len([]rune(s)) A 1 1 あ 3 1 ㌖ 3 1 4 1 13 4 17 5 25 7

14.

なんでや

15.

[beta]

Code Point 表記
package main
import (

"fmt"
"strings"

)
func main() {
ss := []string{
"A",
" ",
" ",
" ",
" ",
" ",
" ",
}
fmt.Println("| s | Code Points |")
fmt.Println("|:-:|:------------|")

あ
㌖

}

for _, s := range ss {
rr := []rune(s)
cp := make([]string, len(rr))
for i, r := range rr {
cp[i] = fmt.Sprintf("%U", r)
}
fmt.Printf("| %s | %s |\n", s, strings.Join(cp, " "))
}

16.

s Code Points A U+0041 あ U+3042 ㌖ U+3316 U+1F64F U+1F64B U+200D U+2640 U+FE0F U+1F64B U+1F3FB U+200D U+2640 U+FE0F U+1F469 U+200D U+1F469 U+200D U+1F467 U+200D U+1F467 U+200D: Zero Width Space, U+FE0F: Variant Selector

17.

UAX #29: UNICODE TEXT SEGMENTATION https://unicode.org/reports/tr29/ Unicodeの文字区切りについての仕様。たとえばハングルでは個別に音を表現するパーツを組み合わせて一つの文字を作るので、 Unicode的に複数の Code Point でも一つに見せる必要がある。一文字に見える複数の Code Point からなる文字列を Grapheme Cluster と呼ぶ。

https://unicode.org/reports/tr29/

18.

つまり？ Code Unit→ 8 bit (UTF-8), 16 bit (UTF-16), etc. UTF-8 は ascii を効率よくエンコーディングできる。 Unicodeの一文字 (Code Point) → 最低 21 bit (multi-byte) UTF-8 → 1-4 byte Go rune → 32 bit 見かけ上の一文字 (Grapheme Cluster) → 複数の Code Point

19.

[beta]

rivo/uniseg
package main
import (

)

"fmt"
"github.com/rivo/uniseg"

func main() {
ss := []string{
"A",
" ",
" ",
" ",
" ",
" ",
" ",
}
fmt.Println("| s | len(s) | len([]rune(s)) | uniseg.GraphemeClusterCount |")
fmt.Println("|:-:|-------:|---------------:|----------------------------:|")

あ
㌖

for _, s := range ss {
fmt.Printf("| %s | %d | %d | %d |\n", s, len(s), len([]rune(s)), uniseg.GraphemeClusterCount(s))
}
}

20.

結果 s len(s) len([]rune(s)) uniseg.GraphemeClusterCount A 1 1 1 あ 3 1 1 ㌖ 3 1 1 4 1 1 13 4 1 17 5 1 25 7 1

21.

「午前3時のいばらきけん」に様々な Combining Diacritical Mark をつけたテキスト。 Unicode的には11文字+いろんな修飾という認識になる。 len(s) len([]rune(s)) uniseg.GraphemeClusterCount 129 60 11

22.

「文字」って難しい「㌖」は日本人的には6文字だけどUnicode的には一文字だったり。「」は人間的には一文字だけどUnicode的には7文字だったり。「文字」って簡単そうで実は難しい。

runeとUnicodeと文字数と

ktnyt

関連スライド

AI境界値分析で 回帰テスト作成を自動化してみる

ioのテストをうまくやりたい

猫でも分かるUnreal Engineの学び方 - 超初心者向け編 - 2023 v1.0

Unreal Engine5 Lumenの仕組みと肝心なところ

UE5レンダリングフロー総おさらい(2024) 基礎編！[CEDEC+KYUSHU 2024]

Meta XR SDK(V66-74)でQuestアプリを開発

各ページのテキスト

AI境界値分析で回帰テスト作成を自動化してみる