Wykład z ćwiczeniami Podstawowe jednostki tekstów elektronicznych

Transkrypt

Wykład z ćwiczeniami Podstawowe jednostki tekstów elektronicznych
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
.
.
prof. dr hab. Janusz S. Bień
Katedra Lingwistyki Formalnej
Wydział Neofilologii
Uniwersytet Warszawski
Semestr letni 2012/2013
1000-2M12PJT
(Przedmioty obieralne dla informatyki)
.
.
..
.
Wykład z ćwiczeniami
Podstawowe jednostki tekstów
elektronicznych
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Motywacja
Wyszukiwarki pełnotekstowe, np.
wbl.klf.uw.edu.pl
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Kodowanie znaków — Unicode
.
Jaki to znak?
..
.
.
.
..
.
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Kodowanie znaków — Unicode
.
Jaki to znak?
..
LATIN SMALL LETTER I WITH GRAVE (00EC)
.
.
.
..
.
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Kodowanie znaków — Unicode
.
Jaki to znak?
..
LATIN SMALL LETTER I WITH GRAVE (00EC)
.
.
..
.
.
COMBINING LATIN SMALL LETTER O (0366)
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Kodowanie znaków — Unicode
.
Jaki to znak?
..
LATIN SMALL LETTER I WITH GRAVE (00EC)
.
.
..
.
.
COMBINING LATIN SMALL LETTER O (0366)
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Kodowanie znaków — Unicode
.
Jaki to znak?
..
LATIN SMALL LETTER I WITH GRAVE (00EC)
.
COMBINING LATIN SMALL LETTER O (0366)
.
..
.
.
LATIN SMALL LETTER A WITH STROKE (2C65)
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Kodowanie znaków — Unicode
.
Jaki to znak?
..
LATIN SMALL LETTER I WITH GRAVE (00EC)
.
COMBINING LATIN SMALL LETTER O (0366)
.
..
ⱥ
.
.
LATIN SMALL LETTER A WITH STROKE (2C65)
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Unicode — Private Use Area
.
Medieval Unicode Font Inititiative
..
.
.
.
..
.
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Unicode — Private Use Area
.
Medieval Unicode Font Inititiative
..
LATIN SMALL LIGATURE LONG S I (EBA2)
.
.
.
..
.
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Unicode — Private Use Area
.
Medieval Unicode Font Inititiative
..
LATIN SMALL LIGATURE LONG S I (EBA2)
.
.
..
.
.
LATIN ABBREVIATION SIGN SPACING BASE-LINE US
(F1A6)
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Unicode — Private Use Area
.
Medieval Unicode Font Inititiative
..
LATIN SMALL LIGATURE LONG S I (EBA2)
.
LATIN ABBREVIATION SIGN SPACING BASE-LINE US
(F1A6)
.
..
.
.
LATIN SMALL LETTER Q LIGATED WITH FINAL ET
(E8BF)
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Znaki
Unicode — Private Use Area
.
Rejestracja nowych znaków
..
LATIN SMALL LIGATURE LONG S L WITH STROKE
.
.
.
(tymczasowo F51E)
.
..
.
.
MUFI — Proposals for new characters
.
..
http://www.mufi.info/pipeline/
16. From Janusz S. Bień, Warszawa, Poland:
In the sample of almost 5 thousand pages of Polish
historical texts (encoded by the IMPACT project) the
most often used non-Unicode and non-MUFI character is
LATIN SMALL LIGATURE LONG S L WITH STROKE. It
occurs
in over 2 thousand different words.
.
..
.
Wykład z ćwiczeniami: Podstawowe jednostki tekstów elektronicznych
Glify
Fonty