-
Notifications
You must be signed in to change notification settings - Fork 4
/
Copy pathutf16be.go
113 lines (102 loc) · 2.77 KB
/
utf16be.go
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
package cpd
import (
"bytes"
"encoding/binary"
"unicode/utf16"
"unicode/utf8"
)
//unit for UTF16BE
// DecodeUTF16be - decode slice of byte from UTF16 to UTF8
func DecodeUTF16be(s string) string {
if len(s) == 0 {
return ""
}
s = UTF16BE.DeleteBom(s)
b := []byte(s)
u16s := make([]uint16, 1)
ret := &bytes.Buffer{}
b8buf := make([]byte, 4)
for i := 0; i < len(b); i += 2 {
u16s[0] = uint16(b[i+1]) + (uint16(b[i]) << 8)
r := utf16.Decode(u16s)
n := utf8.EncodeRune(b8buf, r[0])
ret.Write(b8buf[:n])
}
return ret.String()
}
func matchUTF16be(b []byte, tbl *cpTable) MatchRes {
n := len(b)/2 - 1
if n <= 0 {
return MatchRes{0, 0}
}
//два критерия используется
//первый количество найденных русских букв
//второй количество найденных 0x00
//решающим является максимальный
return MatchRes{max(matchUTF16beRu(b, tbl), matchUTF16beZerro(b)), 0}
}
// matchUTF16leZerro - вычисляет критерий по количеству нулевых байтов, текст набранный латинскими символами в колировке UTF16le будет вторым символом иметь 0x00
func matchUTF16beZerro(b []byte) int {
zerroCount := 0
n := len(b)/2 - 1
for i := 0; i < n; i += 2 {
if b[i] == 0x00 {
zerroCount++
}
}
return zerroCount
}
// matchUTF16beRu - вычисляет критерий по количеству русских букв
// tbl *codePageTable - передаётся не для нахождения кодировки, а для заполнения встречаемости популярных русских букв
func matchUTF16beRu(data []byte, tbl *cpTable) int {
matches := 0
n := len(data)/2 - 1
if n <= 0 {
return 0
}
count04 := 0
for i := 0; i < n; i += 2 {
if data[i] == 0x04 {
count04++
}
t := data[i : i+2]
d := binary.BigEndian.Uint16(t)
j := tbl.index(rune(d))
if j > 0 {
(*tbl)[j].count++
}
if isUTF16BE(rune(d)) {
matches++
}
}
if count04 < matches {
matches = count04
}
return matches
}
/*func matchUTF16beFirstLessSecond(b []byte) int {
count := 0
n := len(b)/2 - 1
for i := 0; i < n; i += 2 {
//second byte of UTF16BE usually greate than first
if b[i] < b[i+1] {
count++
}
}
return count
}*/
const (
cpUTF16beBeginUpperChar = 0x0410
cpUTF16BEStopUpperChar = 0x042F
cpUTF16beBeginLowerChar = 0x0430
cpUTF16BEStopLowerChar = 0x044F
)
func isUpperUTF16BE(r rune) bool {
return (r >= cpUTF16beBeginUpperChar) && (r <= cpUTF16BEStopUpperChar)
}
func isLowerUTF16BE(r rune) bool {
return (r >= cpUTF16beBeginLowerChar) && (r <= cpUTF16BEStopLowerChar)
}
func isUTF16BE(r rune) bool {
return isUpperUTF16BE(r) || isLowerUTF16BE(r)
}