Penambangan teks

Narrative Network of US Election 2012 - Nodes indicate noun phrases, links go from subject to object, color expresses relation of support or opposition. Appeared in: "Automated analysis of the US presidential elections using Big Data and network analysis; S Sudhahar, GA Veltri, N Cristianini; Big Data & Society 2 (1), 1-28, 2015"

Penambangan teks (bahasa Inggris: text mining) adalah proses ekstraksi pola berupa informasi dan pengetahuan yang berguna dari sejumlah besar sumber data teks, seperti dokumen Word, PDF, kutipan teks, dll. Jenis masukan untuk penambangan teks ini disebut data tak terstruktur dan merupakan pembeda utama dengan penambangan data yang menggunakan data terstruktur atau basis data sebagai masukan. Penambangan teks dapat dianggap sebagai proses dua tahap yang diawali dengan penerapan struktur terhadap sumber data teks dan dilanjutkan dengan ekstraksi informasi dan pengetahuan yang relevan dari data teks terstruktur ini dengan menggunakan teknik dan alat yang sama dengan penambangan data. Proses yang umum dilakukan oleh penambangan teks di antaranya adalah perangkuman otomatis, kategorisasi dokumen, penggugusan teks, deteksi plagiarisme, dll. (Turban, et.al., 2011)

Rujukan

Berry, M.W.; Kogan, J. (2010). Text Mining: Application and Theory. Chichester: John Wiley & Sons, Ltd.
Feldman, R.; Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press.
Turban, E.; et.al. (2011). Decision Support and Business Intelligence Systems (edisi ke-9). New Jersey: Pearson Education, Inc.

Pengolahan bahasa alami

Istilah umum

AI-komplit
Bag-of-words
n-gram
- Bigram
- Trigram
Linguistik komputasi
Pemahaman bahasa alami
Stop words
Text processing

Analisis teks

Collocation extraction
Concept mining
Coreference resolution
Deep linguistic processing
Distant reading
Information extraction
Named-entity recognition
Ontology learning
Parsing
Part-of-speech tagging
Semantic role labeling
Semantic similarity
Sentiment analysis
Terminology extraction
Text mining
Textual entailment
Truecasing
Word-sense disambiguation
Word-sense induction

Segmentasi teks	Compound-term processing Lemmatisation Lexical analysis Text chunking Stemming Sentence segmentation Word segmentation

Peringkasan otomatis

Multi-document summarization
Sentence extraction
Text simplification

Mesin penerjemah

Computer-assisted
Berbasis contoh
Berbasis aturan
Statistik
Berbasis transfer
Neural

Model Semantik distribusi

BERT
Document-term matrix
Explicit semantic analysis
fastText
GloVe
Language model
Latent semantic analysis
Seq2seq
Word embedding
Word2vec

Sumber bahasa,
datasets and corpora

Jenis dan standar	Linguistik korpus Sumber daya leksikal Data Terbuka Bertautan Linguistik Kamus yang dapat dibaca mesin Teks paralel PropBank Jaringan semantik Sistem Organisasi Pengetahuan Sederhana Korpus ucapan Korpus teks Thesaurus (information retrieval) Treebank Ketergantungan Universal
Data	BabelNet Bank of English DBpedia FrameNet Google Ngram Viewer UBY WordNet