메뉴 건너뛰기

GREATUSER

free

MySQL 8.0: ひらがなカタカナを判別する日本語用Collation 以前の記事では、MySQL 8.0.1で導入された新しい 日本語のutf8bm4のCollation(文字照合順)について ご紹介しました。このcollation (utf8mb4_ja_0900_as_cs) は、CLDR 30で定義されたアクセント記号(清音濁音半濁音)ならびに大文字小文字(拗音促音など)を判別する実装となっています。 今日ご紹介するのはひらがなカタカナを判別できる新しい「かなセンシティブ」なCollation utf8mb4_ja_0900_as_cs_ksです。DUCETではひらがながカタカナよりも前にソートされるように3次レベルの重みを定義しています。例えば: 3042 ; [.3D5A.0020.000E] # HIRAGANA LETTER A 30A2 ; [.3D5A.0020.0011] # KATAKANA LETTER A 2次レベルでの違い(000E および 0011)によって 0x3042 (あ) < 0x30A2 (ア) となります。CLDRではひらがなとカタカナの違いは4次レベル(例: &あ<<<<ア)で比較するよう定義されています。デフォルトの比較レベルは3次レベル(強さ 3)となっており、最初の3次レベルでみると同じとなります。 utf8mb4_ja_0900_as_cs_ksについて utf8mb4_ja_0900_as_csに対していただいたフィードバックにお応えする形で、ひらがなとカタカナを判別する新しいCollationである utf8mb4_ja_0900_as_cs_ks を追加することにしました。ここでの’_ks’は「かなセンシティブ Kana Sensitive」を意味しています。 このCollationは最初の3次レベルまでが同じひらがなとカタカナの判別に必要となる4次レベルでの処理を行います。以下の例では、utf8mb4_ja_0900_as_cs および utf8mb4_ja_0900_as_cs_ks のそれぞれのCollationでの文字列比較結果です: mysql> SET @s1 = CONVERT('きゅう' USING utf8mb4); Query OK, 0 rows affected (0.01 sec) mysql> SET @s2 = CONVERT('キュウ' USING utf8mb4); Query OK, 0 rows affected (0.00 sec) mysql> SET @s3 = CONVERT('きゆう' USING utf8mb4); Query OK, 0 rows affected (0.00 sec) mysql> SET @s4 = CONVERT('キユウ' USING utf8mb4); Query OK, 0 rows affected (0.00 sec) mysql> SELECT STRCMP(@s1 COLLATE utf8mb4_ja_0900_as_cs, @s2); +------------------------------------------------+ | STRCMP(@s1 COLLATE utf8mb4_ja_0900_as_cs, @s2) | +------------------------------------------------+ | 0 | +------------------------------------------------+ 1 row in set (0.00 sec) mysql> SELECT STRCMP(@s2 COLLATE utf8mb4_ja_0900_as_cs, @s3); +------------------------------------------------+ | STRCMP(@s2 COLLATE utf8mb4_ja_0900_as_cs, @s3) | [ more... ]

The post MySQL 8.0: ひらがなカタカナを判別する日本語用Collation appeared first on 지락문화예술공작단.




원문출처 : https://jirak.net/wp/mysql-8-0-%E3%81%B2%E3%82%89%E3%81%8C%E3%81%AA%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A%E3%82%92%E5%88%A4%E5%88%A5%E3%81%99%E3%82%8B%E6%97%A5%E6%9C%AC%E8%AA%9E%E7%94%A8collation/
번호 제목 글쓴이 날짜 조회 수
130 Announcing Windows 10 Insider Preview Build 17127 for Fast 관리자 2018.03.21 96
129 AWS Config Rules 업데이트 – 멀티 계정 및 리전 기반 규정 준수 데이터 집계 기능 출시 관리자 2018.04.08 96
128 Analytics for the Internet of Things: collecting all your things’ data with Piwik to stay in control? 관리자 2016.01.06 97
127 This Week on Windows: Gears of War 4, ReCore Trial, a Haunted Hub and more 관리자 2016.10.08 97
126 Bon Jsell on why they love theSkimm and Surface 관리자 2016.11.22 97
125 Conversion options for bringing your existing desktop app to the Universal Windows Platform using the Desktop Bridge 관리자 2016.12.09 97
124 AWS CodeStar 및 CodeBuild에 신규 닷넷(.Net) 코어 앱 개발 지원 관리자 2017.07.12 97
123 This Week on Windows: New Windows 10 PCs, Forza Horizon 3, and more 관리자 2017.04.21 98
122 Announcing gRPC Support in NGINX 관리자 2018.03.18 98
121 Announcing Windows 10 Insider Preview Build 17634 for Skip Ahead 관리자 2018.03.30 98
120 This Week on Windows: Forza Horizon 3: Hot Wheels Expansion, Game Mode and more 관리자 2017.05.13 99
119 AWS 도움말 문서, GitHub에서 오픈 소스로 공개 관리자 2018.03.16 99
118 E3 2017: Alienware and Dell announce PC gaming systems powered by Windows 10 관리자 2017.06.13 100
117 AWS Glue 기반 Amazon Aurora 데이터 추출 및 Quicksight 시각화 하기 관리자 2018.03.13 100
116 Introducing Brotli compression in Microsoft Edge 관리자 2016.12.21 102
위로