Základy zpětného inženýrství

Tato série článků může posloužit jako lehký úvod do zpětného inženýrství (reverse-engineeringu) cizího souborového formátu. Soubor BNL je dostatečně jednoduchý a málo, či naivně chráněný. Je k dispozici řada vzorků, na kterých se dá zkoumat chování a lze vytvořit vlastní soubor, a tak snadno ověřit teorie, které si reverzní inženýr v průběhu analýzy vytvoří.

Obsah článku

Nutné znalosti a vybavení
Základy hraní s bajty a bity
Související články

Nutné znalosti a vybavení

Na hacking a cracking cizích formátů a šifrování si připravím tyto nástroje a znalosti:

Hexaeditor. Protože jsem líný, použil jsem ten, který je zabudován ve FAR manageru. Ale každý si může zvolit takový, který mu bude „sedět do ruky“.
Umění interpretovat různé číselné soustavy (desítková, dvojková, šestnáctková).
Znalost rozdílu mezi little a big endian, signed a unsigned (znaménkové a neznaménkové typy).
Umět sčítat, odčítat, ANDovat, ORovat a XORovat, SHIFTovat a ROLovat.
Programátorskou kalkulačku – každý si může zvolit jakoukoli. Mně ta, která je součástí Windows 10, na toto stačila. Dá se přepnout do programátorského módu a hned jsou k dispozici konverze soustav, i všechny důležité číselné operace.
Z předchozích článků vím, že Albi tužka obsahuje čipy SoC Sonix SNP70032 nebo SN95300. Našel jsem si tedy datasheety. Z nich plyne, že jsou velmi podobné a obsahují 16 bitové DSP jádro, které má všechno zarovnáno na 16bitová slova.
Dále jsem si prosvištěl německý reverzní projekt TipToi-reveng, který rozebírá podobné pero prodávané pod značkou Ravensburger.
Léty nasbírané vědomosti o ukládání dat do binárních souborů. Ty sice teď tak snadno nezískáte, ale pokud si při čtení budete vše zkoušet, možná spolu položíme úplné základy.
Papír / otevřený Notepad na poznámky.
A hlavně – nezdolnej lidskej duch, tvrdohlavost a umanutost.

Základy hraní s bajty a bity

Protože si většina programátorů dnes už vůbec „nesáhne na železo“, některé pojmy, které používám, nemusí řadě čtenářů vůbec nic říkat. Tady si ve velmi zkrácené a zjednodušené formě povíme, jak se různá data ukládají do paměti (a tím i do souborů) a jak se s nimi manipuluje. Předem upozorňuji, že se bude jednat o „lži-dětem“, termín, který použili Ian Stewart a Terry Pratchett ve Vědě na Zeměploše. Tedy informace budou dostatečně přesné k pochopení něčeho nového, ale nebudou pokrývat celou šířku problému. Pokud výše uvedené základy máte, raději kapitolu rovnou přeskočte (protože budete mít neustále tendenci upřesňovat).

Číselné soustavy

Při práci s počítači nízko k hardware, se používají dvojková a šestnáctková číselná soustava, méně pak osmičková, tu tedy vynechám. Dvojková se používá z jednoduchého důvodu – nejnižší jednotka informace je 1bit, který může obsahovat pouze hodnoty 0 nebo 1. Všechny číselné soustavy „fungují“ stejně – každá má N symbolů (dvojková dva – 0/1, desítková 10 – 0-9 a šestnáctková 16 – 0-9 a A-F), zapisují se zprava tak, že symbol na nejnižším místě je násoben N⁰, další N¹ atd. Např. pro binární číslo 11010110 je to takto:

Binární číslo	1	1	0	1	0	1	1	0
Pozice	7	6	5	4	3	2	1	0
Mocniny	128	64	32	16	8	4	2	1
Výsledek	128	64	0	16	0	4	2	0

Desítkovou soustavu umíme „z hlavy“, ale platí pro ni ta stejná pravidla, i když si je neuvědomujeme.

Úkol č.1
Výsledek

To jste nečekali, že dostanete úkol, že jo? Ale pojďte na to, ať se něco naučíte.

Spusťte programátorskou kalkulačku a převeďte výše uvedené binární číslo (číslo ve dvojkové soustavě) na desítkové číslo.

Výsledek je 214

Protože (1*128) + (1*64) + (0*32) + (1*16) + (0*8) + (1*4) + (1*2) + (0*1) = 214

Základní adresovatelnou jednotkou paměti je BYTE (bajt), který obsahuje 8bitů. Sice bychom mohli hodnotu bajtu zapisovat binárně, ale to je dosti náročné a dlouhé, proto si rozdělíme bajt na dva čtyřbitové kousky (nibble). Pomocí 4 bitů umíme vyjádřit 2⁴ = 16 hodnot, na jejichž zápis se nám hodí právě šestnáctková soustava. Když si tedy číslo výše rozdělíme na 1101 a 0110, vyjde nám 8+4+1=13 a 4+2=6, můžeme tedy zapsat bajt jako 0xD6 (protože šestnáctková soustava využívá 16 různých symbolů pro číslice, symboly A až F odpovídají desítkovým 10-15).

Titulní obálka porevolučního časupisu Bajt, české verze amerického časopisu BYTE — Bajt byl i první český porevoluční časopis o počítačích, česká verze amerického časopisu BYTE

Endianita

Další vyšší jednotkou je WORD, 16 bitové slovo. Tady se dostáváme k problému s tzv. endianitou. Můžeme totiž WORD rozdělit na dva bajty a ty za sebou uložit do paměti, ale je otázkou, v jakém pořadí. Buď ho uložíme v pořadí od „menšího“ konce, little-endian, tj. nejdříve uložíme bajt s bity 7-0 a až pak bajt 15-8, nebo ve formátu big-endian, tj. uložíme nejdřív vyšší bajt 15-8 a až pak nižší. Způsob, jakým se ukládá do paměti, je dán napevno architekturou procesoru.

A ještě vyšší z našeho hlediska je DWORD (double word) 32bitové slovo. Opět existuje více zápisů, little-endian od nižších slov a bajtů, big-endian od vyšších.

Úkol č.2
Výsledek

Na kterém místě se vyskytuje little endian doubleword 0x443B0ACA

Little endian doubleword 0x443B0ACA je v souboru zapsaný v pořadí od „menšího“ konce. Začíná tedy bajtem o hodnotě „CA“, následuje „0A“, atd. Najdete ho na offsetu 0x1d058

Ještě nám chybí informace o zarovnání (padding) – některé procesory nesnáší, když se celočíselné typy v paměti nenacházejí na správných místech, tj. na adresách beze zbytku dělitelných 2 nebo 4 (to je dáno typem procesoru). Když se pak ukládají do paměti čísla o různých velikostech, musejí se zarovnat tak, aby následující číslo bylo na správné adrese. Některé procesory umožňují i ukládání na „škaredé“ adresy (unaligned access), ale za cenu zpomalení operace – proto je zarovnání často žádoucí. Např. pokud ukládám za sebou samé 32bitové hodnoty (tj. 4 bajtové) a chci mezi ně uložit jednu 16bitovou, musím přidat jeden „absolutně prázdný a falešný“ WORD, abych měl následující DWORD na adrese dělitelné 4.

Všechny tyto informace platí pro neznaménková čísla, tj. čísla v intervalu 0 až 2^N-1. Pokud se chceme k binárním číslům chovat jako ke znaménkovým, děláme to nejčastěji tak, že nejvyšší bit je znaménkový (0 – kladné číslo, 1 – záporné číslo) a zbytek je tzv. dvojkový doplněk.

Jako perličku na konec si nechávám informaci, že dané názvosloví „endianity“ vychází z Gulliverových cest Jonathana Swifta, kde vedla dvě království válku o to, ze které strany se mají rozbíjet vejce – zda z „big end“ (tlustokoncoví) nebo „little end“. Podobný spor nyní vedou někteří lidé na Twitteru, zda se ona věc na konci banánu používá jako držák nebo otvírák. 😉

bit je hodnota 0 nebo 1
bajt má 8 bitů, pro lepší čitelnost se převádí na HEX formát např. 0x4B
nibble je půl bajtu – 4 bitový kousek
word má 16 bitů, tedy 2 bajty, např. 0x9AF4
dword má 32 bitů, tedy 4 bajty, např. 0x2DFF741C

grafické znázornění velikostí bitu, nibble, bajtu, word a dword — Bity, bajty a slova

Ukazatele, offsety a nebo také pointery

Všechny tyto pojmy jsou z našeho hlediska prakticky to stejné – jedná se o číslo, které říká, jak daleko je nějaký objekt od referenčního. Typicky v paměti je to adresa objektu v paměti, v souboru to bývá buď absolutní offset od začátku souboru nebo relativní offset od nějakého počátku vnitřního členění souboru. I index v poli se chová podobně.

Na běžných 8bitových procesorech jsou ukazatele dlouhé 16bitů, na vyšších pak různě veliké, většinou podle počtu “bitů procesoru”. Většinou se ukazatele zvětšují o jedna pro každý bajt, ale jsou architektury, které mají jako nejnižší adresovatelnou jednotku například WORD, a pak zvětšení ukazatele o 1 znamená skok o 2 bajty (1 WORD).

Řetězce a magická čísla

Texty, vesměs označované jako textové řetězce nebo jen řetězce, se do paměti ukládají celkem jednoduše – písmenko za písmenkem, kde je každé písmenko reprezentováno jedním bajtem. Nejčastěji je takový řetězec ukončen bajtem 0x00 (tzv. C zápis), někdy mu předchází délka (PASCALský zápis), ať už bajtová nebo delší. Dokud se pohybujeme v angličtině, je to jednoduché, stačí nám tzv. ASCII tabulka, dokonce jen sedmibitová (tj. 128 znaků). V jazycích, kde jsou pak různá nabodeníčka, umlauty, cedilly czy ogonki, si musíme zvolit, jakým způsobem budeme interpretovat vyšší hodnoty bajtů a jak je budeme mapovat na jednotlivé znaky jazyka. Druhým způsobem je pak použití osmibitového kódování s proměnnou délkou UTF-8 nebo fixní šestnáctibitové UTF-16.

Úkol č.3
Výsledek

Původně to měl být jen ilustrační obrázek, ale proč z něj neudělat úkol…

Nyní máte všechny potřebné znalosti pro pochopení / přečtení tohoto trička. (zdroj: wish.com)

Tohle nebude zadarmo… BIN > HEX > ASCII

Magická čísla nám v souborech slouží k identifikaci buď vlastního souboru, nebo jeho důležité části. Např. každý Microsoftí exe soubor začíná písmeny MZ (hex hodnotami 0x4D 0x5A), tím operační soubor rozpozná, že se jedná o spustitelný soubor a pokračuje v jeho načítání. Takovýchto konstant se může v souboru vyskytovat více.

Z hlediska rozpoznávání cizích souborových formátů se jedná o cennou nápovědu. Samozřejmě, řada souborů žádná magická čísla neobsahuje, především na jednodušších systémech, kde není nutnost rozlišování různých formátů souborů – například se místo toho použije předpoklad, že soubor se správnou příponou má i správný formát odpovídající té příponě.

Operace nad čísly

Standardní operace jako sčítání, odčítání a celočíselné násobení a dělení můžeme vynechat, jen s tou poznámkou, že velikost výsledku může být omezena šířkou typu. Tj. pokud mám neznaménkový bajt (připomínám, že má 8 bitů, tj. maximálně 2⁸ = 256 hodnot 0-255) s hodnotou 234 a přičtu k němu 50, dojde k takzvanému přetečení a výsledek bude 28. [(234+50) modulo 256]

Dále následují operace bitové. Většina procesorů má operaci NOT, která jen „přepne“ všechny bity v čísle na opačnou hodnotu.

Další operace jsou OR (logický součet), AND (logický součin) a XOR (exkluzivní logický součet). Tyto operace mají dva vstupy a jeden výstup, a dají se zapsat takto pomocí pravdivostní tabulky:

Vstup A	Vstup B	Výstup OR	Výstup AND	Výstup XOR
0	0	0	0	0
0	1	1	0	1
1	0	1	0	1
1	1	1	1	0

Pravdivostní tabulka operací OR, AND a XOR

Krátký popis jednotlivých operací:

Operace OR se používá, když chceme nastavit nějaký bit na jedničku.
Operace AND se používá, když chceme jednotlivý bit nastavit na 0 nebo když chceme omezit / odmaskovat nějaký počet bitů (např. 0x1234 AND 0xFF nám efektivně zachová dolních 8 bitů, výsledkem je 0x0034). Toto například můžete znát, když zapisujete masku sítě IPv4.
Operace XOR se v našem použití používá nejčastěji k jednoduchému zašifrování. Z hlediska šifrování má tyto „zajímavosti“
- A XOR 0 = A (identita)
- A XOR 0xFF = NOT A (negace)
- Dále pak platí, že (A XOR K) XOR A = K, tj. pokud mám zašifrovaný známý text A a neznámý klíč K, dokážu pomocí xorování zašifrovaného bloku známým nezašifrovaným obsahem získat neznámý klíč.
- Platí i (A XOR K) XOR K = A, tj. první xorování klíčem blok zašifruje, druhé odšifruje.

Posledními nezmíněnými operacemi jsou posuny a rotace, ty zcela vynechám, jen zmíním, že jednoduché posuny se používají k násobení a dělení mocninami 2 (podobně jako v desítkové soustavě přidávání a ubírání nul zprava, tj. násobení a dělení mocninami 10).

Úkol č.4
Výsledek

Během dalšího zkoumání souboru budu používat operaci XOR, tak si vyzkoušejte, jestli všemu dobře rozumíte.

0x1D XOR 0x08 = ?
0x1D2C XOR 0x3B4A = ?
Dešifrujte text 0x2A000B0A pomocí textu „klic“

0x1D XOR 0x08 = 0x15
0x1D2C XOR 0x3B4A = 0x2666
0x2A000B0A XOR 0x6B6C6963 = 0x416C6269 po převedení do ASCI je výsledkem text „Albi“

Související články

Jak funguje Albi tužka
Jak fungují BNL soubory pro Albi tužku
Základy zpětného inženýrství (právě čtete)
Hacking a cracking BNL souborů pro Albi tužku – 1. část
Hacking a cracking BNL souborů pro Albi tužku – 2. část
Jak vytvořit vlastní knížku pro Albi tužku

Základy zpětného inženýrství

Nutné znalosti a vybavení

Základy hraní s bajty a bity

Číselné soustavy

Endianita

Ukazatele, offsety a nebo také pointery

Řetězce a magická čísla

Operace nad čísly

Související články

O autorovi

Jindroush

1 názorů na “Základy zpětného inženýrství”

Diskuze Zruš odpověď